VideoBERT Google Dapat Memprediksi Apa yang Terjadi selanjutnya dalam Video

Manusia dapat dengan mudah mengamati peristiwa dan memprediksi atau mengantisipasi peristiwa yang mungkin bisa terjadi dalam waktu dekat tetapi perilaku prediktif ini selalu sulit untuk AI. Ya, tidak lagi. Para peneliti di Google telah mengusulkan VideoBERT, sistem yang diawasi sendiri yang dapat melakukan prediksi dari video yang tidak berlabel.

"Pidato cenderung selaras sementara dengan sinyal visual, dan dapat diekstraksi dengan menggunakan sistem pengenalan suara otomatis (ASR), dan dengan demikian menyediakan sumber alami pengawasan diri.", tulis peneliti Google dalam posting blog.

VideoBERT memanfaatkan BERT Google untuk mempelajari detail video. Khususnya, BERT (Bidirectional Encoder Representations from Transformers) adalah model mutakhir yang digunakan oleh Google untuk aplikasi berbasis bahasa alami.

Google menggunakan bingkai gambar yang dikombinasikan dengan output kalimat pengenalan ucapan otomatis untuk mengubahnya menjadi token visual berdurasi 1,5 detik. Token visual ini kemudian digabungkan dengan kata token. Token yang hilang diisi dengan menggunakan model VideoBERT.

Blog menjelaskan bagaimana para peneliti melatih VideoBERT pada lebih dari satu juta video instruksional tentang memasak, berkebun, dan perbaikan kendaraan. Para peneliti juga memverifikasi output VideoBERT untuk mengevaluasi keakuratan model.

google videobert

Menurut para peneliti, VideoBERT dapat memprediksi bahwa semangkuk tepung dan bubuk kakao dapat dipanggang dalam oven dan dapat berubah menjadi brownies atau cupcake. Posting blog juga mencatat bahwa VideoBERT sering melewatkan informasi visual yang halus seperti objek yang lebih kecil dan gerakan halus.

“Hasil kami menunjukkan kekuatan model BERT untuk belajar representasi visual-linguistik dan visual dari video yang tidak berlabel. Kami menemukan bahwa model kami tidak hanya berguna untuk klasifikasi tindakan dan pembuatan resep zero-shot, tetapi representasi temporal yang dipelajari juga mentransfer dengan baik ke berbagai tugas hilir, seperti antisipasi tindakan. ”, para peneliti menyimpulkan.

Jadi, apa pendapat Anda tentang VideoBERT? Beri tahu kami di komentar.

Pos terkait

Back to top button