Amazon"Dub Otomatis" Menggunakan AI untuk Dub Video ke Bahasa Asing

Dengan popularitas begitu banyak platform streaming, konten menjadi sangat beragam dan berbeda. Semakin banyak orang yang menonton acara berbahasa asing seperti "Money Heist" dan "Dark" karena mereka adalah pertunjukan yang baik dan tersedia di seluruh dunia. Namun, sebagian dari kita suka menonton acara kami dalam bahasa yang kami pahami. Terkadang subtitle saja tidak cukup. Karena itu, dubbing acara asing ke bahasa lain dapat menjadi memakan waktu dan mahal untuk perusahaan produksi. Ini adalah alasan utama mengapa banyak acara tidak dijuluki dalam bahasa asing. Baik, Amazon peneliti mungkin punya solusi untuk masalah ini.

Dalam sebuah makalah yang diterbitkan di server pra-cetak Arxiv.org, Amazon peneliti berteori dan menguji teknologi "pidato-ke-bicara" baru. Itu menggunakan AI untuk mengonversi ucapan orisinal menjadi ucapan yang diterjemahkan dan memperhalus ucapan yang diterjemahkan untuk membuatnya terdengar seperti manusia. Ini hanyalah langkah pertama menuju pengembangan cara sulih acara dan film yang lebih mudah dan lebih murah.

Bagaimana itu bekerja

Teknologi "bicara-ke-bicara" ini jauh lebih rumit daripada kedengarannya. Menerjemahkan pidato asli ke pidato asing menggunakan komputer adalah tugas yang sibuk. Ini tidak menerjemahkan bahasa ke bahasa lain hanya dari sumber audio, tetapi ada beberapa langkah yang terlibat.
Proses dubbing otomatis pada dasarnya mencakup 3 langkah. Pertama, ucapan orisinal perlu dikonversi dalam format teks. Langkah kedua melibatkan menerjemahkan teks ke bahasa yang diinginkan. Akhirnya, teks yang diterjemahkan menghasilkan pidato baru.

Sekarang, ada komplikasi mengembangkan pidato baru dari teks-ke-ucapan yang diterjemahkan. Pidato yang diterjemahkan harus sesuai dengan kecepatan dan emosi dari pidato aslinya. Itu juga harus membawa suara latar belakang dan menghilangkan gema.

Untuk membuat proses yang rumit ini berhasil, Amazon Peneliti mengonfirmasi hal itu teknologi bicara-ke-ucapan mereka telah dilatih pada lebih dari 150 juta pasangan bahasa Inggris-Italia frase untuk menentukan kecepatan segmen pidato pidato yang diterjemahkan agar sesuai dengan kecepatan pidato asli. Langkah ini memastikan jeda dan istirahat dalam pidato yang diterjemahkan sesuai dengan ucapan aslinya.

Seorang model dalam fase text-to-speech telah dilatih pada 47 jam rekaman pidato. Model ini menghasilkan urutan konteks dari teks yang dimasukkan ke dalam vocoder pra-terlatih, yang mencakup urutan ke dalam bentuk gelombang bicara.

Teknologi ini juga dapat mengekstraksi suara latar dari audio asli dan memasukkannya ke dalam audio yang diterjemahkan agar lebih mirip dengan audio asli. Terakhir, langkah terpisah yang disebut langkah re-gema diterapkan untuk menambahkan gema dari audio asli ke yang diterjemahkan.

Akankah Bermanfaat?

Prosesnya tentu rumit, tetapi peneliti menulis bahwa pekerjaan mereka di masa depan akan dikhususkan untuk perbaikan sulih suara otomatis. Ini dapat menghilangkan kebutuhan aktor suara untuk menjuluki pertunjukan atau film ke bahasa lain. Akan lebih sedikit memakan waktu dan lebih murah untuk mendub konten ke bahasa yang diinginkan. Dan ya, itu akan menguntungkan rumah produksi untuk memberikan lebih banyak pertunjukan dan film kepada pemirsa dengan membuat daftar yang jauh lebih beragam.

Pos terkait

Back to top button