Tin tức và phân tích của tất cả các thiết bị di động

Deepdub khép lại vòng mới để lồng tiếng cho AI lồng tiếng cho phim, chương trình và trò chơi

Lồng tiếng, trong đó các bản ghi âm bằng các ngôn ngữ khác được hát nhép và trộn với nhạc nền gốc của chương trình, là một ngành kinh doanh đang bùng nổ. Một nền tảng bản địa hóa, Zoo Digital, đã chứng kiến ​​doanh thu tăng 73% lên 28 USD.6 triệu vào tháng 7 năm 2018 so với năm trước. Một cái khác, BTI Studios, nói Truyền hình Kinh doanh Quốc tế mà việc lồng tiếng đã phát triển từ 3% doanh thu năm 2010 lên 61% vào năm 2019.

Theo theo Nghiên cứu thị trường đã được xác minh, chỉ riêng thị trường lồng tiếng phim có thể đạt $3.6 tỷ USD vào năm 2027, tăng trưởng với tốc độ tăng trưởng kép hàng năm là 5.6% từ năm 2020. Nhưng các rào cản cản trở việc mở rộng. TRÊN trung bình, có thể mất một giờ ghi âm trong phòng thu cho năm phút tường thuật — chưa kể diễn viên có thể truyền tải nó với nhịp điệu và thời gian khớp với âm thanh gốc nhất có thể. Nó cũng tốn kém. Một máy tính chốt giá ở mức 75 đô la mỗi phút cho ngay cả một video đơn giản.

Công nghệ AI hứa hẹn sẽ hợp lý hóa quy trình bằng cách tự động hóa các khía cạnh khác nhau của việc lồng tiếng. Các công ty tập trung vào video và giọng nói bao gồm tổng hợp, Người phát ngôn, Giống AICốc giấy đã phát triển các công cụ lồng tiếng AI cho các chương trình truyền hình và phim ảnh, cũng như lồng tiếng sâu. Phản ánh sự quan tâm của các nhà đầu tư, Deepdub hôm nay thông báo rằng họ đã huy động được 20 triệu USD trong vòng Series A do Insight Partners dẫn đầu với sự tham gia của Booster Ventures, Stardom Ventures, Swift VC và các nhà đầu tư thiên thần.

Lồng tiếng bằng AI

Deepdub, người Israel khởi động có trụ sở chính tại Tel Aviv, được đồng sáng lập vào năm 2019 bởi anh em Nir Krakowski và Ofir Krakowski. Công ty cung cấp các dịch vụ lồng tiếng được hỗ trợ bởi AI cho phim, truyền hình, trò chơi và quảng cáo, được hỗ trợ bởi mạng lưới thần kinh giúp phân tách và cô lập giọng nói và thay thế chúng trong các bản nhạc gốc.

Deepdub cố gắng tạo ra các giọng mới trong khi vẫn giữ lại giọng nói gốc của diễn viên trên nhiều ngôn ngữ, sử dụng giọng nói tổng hợp dựa trên mẫu của các diễn viên trong một ngôn ngữ để tạo thành các từ nước ngoài bằng giọng nói tổng hợp của diễn viên đó. Các thuật toán của công ty – chưa thể lồng tiếng trong thời gian thực nhưng được cắm vào hệ thống hậu kỳ – cố gắng khớp nhịp điệu nhép hoặc chuyển động nhép trong phương tiện nguồn bằng nhiều ngôn ngữ cùng một lúc.

“Với nhu cầu toàn cầu ngày càng tăng về trải nghiệm địa phương của khán giả, nhu cầu ngày càng tăng về các giải pháp lồng tiếng chất lượng cao có thể mở rộng quy mô nhanh chóng và mang lại trải nghiệm ở cấp độ mới. Khán giả ngày càng có nhiều lựa chọn hơn và các nền tảng nội dung tìm cách tạo sự khác biệt ở thị trường địa phương,” Nir Krakowski nói với VentureBeat qua email. “[Our] Các mô hình AI cho phép sao chép các đặc điểm giọng nói bằng cách sử dụng dữ liệu giọng nói không quá ba phút. Giọng nói do AI tạo ra trong ngôn ngữ đích sau đó có thể biểu hiện ở bất kỳ mức độ biểu cảm nào, bao gồm khóc, la hét, nói chuyện khi đang ngậm thức ăn trong miệng, [and more] — ngay cả khi dữ liệu giọng nói gốc không bao gồm thông tin đó.”

Tác phẩm của Deepdub bao gồm “Every Time I Die”, một bộ phim kinh dị nói tiếng Anh năm 2019 được công ty khởi nghiệp lồng tiếng sang tiếng Tây Ban Nha và tiếng Bồ Đào Nha. Nó đánh dấu một trong những lần đầu tiên toàn bộ phim lồng tiếng sử dụng bản sao giọng nói dựa trên giọng của dàn diễn viên gốc.

“[We’re] làm việc với nhiều hãng phim Hollywood trong nhiều dự án khác nhau hiện đang là độc quyền. Kể từ khi ra mắt công chúng vào tháng 12 năm 2020, Deepdub đã ký kết hợp tác nhiều loạt phim với Topic.com để đưa danh mục chương trình truyền hình nước ngoài của họ sang tiếng Anh,” anh em nhà Krakowski cho biết. “Nguồn vốn từ [the latest round] sẽ được sử dụng để mở rộng phạm vi tiếp cận toàn cầu của nhóm bán hàng và giao hàng của công ty, củng cố nhóm R&D có trụ sở tại Tel Aviv với các nhà nghiên cứu và nhà phát triển bổ sung, đồng thời nâng cao hơn nữa nền tảng bản địa hóa dựa trên học tập sâu của công ty.”

Những cạm bẫy tiềm ẩn

Theo với Statista, 59% người trưởng thành ở Hoa Kỳ nói rằng họ thích xem phim nói tiếng nước ngoài được lồng tiếng Anh hơn là xem phim gốc có phụ đề. Người ta không cần phải tìm đâu xa ngoài những loạt phim lồng tiếng như Squid Game (ban đầu bằng tiếng Hàn) và Dark (tiếng Đức) để có bằng chứng; tháng 10 năm 2021 thăm dò ý kiến nhận thấy rằng 25% người Mỹ đã xem Squid Game, đây vẫn là chương trình gốc được xem nhiều nhất mọi thời đại của Netflix.

Ngoài các công ty khởi nghiệp, Nvidia còn đang phát triển công nghệ làm thay đổi video theo cách lấy nét mặt của diễn viên và khớp chúng với ngôn ngữ mới. Về phần mình, Veritone đã đưa ra một nền tảng gọi điện Marvel.ai cho phép các nhà sản xuất nội dung tạo và cấp phép cho giọng nói do AI tạo ra.

Nhưng việc bản địa hóa không đơn giản như việc dịch thuật đơn giản. Như Steven Zeitchik của The Washington Post đã chỉ ra, nội dung được lồng tiếng bằng AI mà không chú ý đến chi tiết có thể mất đi “hương vị địa phương”. Biểu thức trong một ngôn ngữ có thể không có nghĩa tương tự trong ngôn ngữ khác. Hơn nữa, lồng tiếng AI đặt ra các câu hỏi về đạo đức, chẳng hạn như liệu có nên tạo lại giọng nói của một người đã khuất. Và công nghệ này có thể dẫn đến một tương lai trong đó hàng triệu người xem có thể không bao giờ được tiếp xúc với một ngôn ngữ bên ngoài ngôn ngữ của họ.

Ngoài ra, âm u là sự phân nhánh giọng nói được tạo ra từ màn trình diễn của các diễn viên đang làm việc. Trong một vụ kiện vào mùa xuân năm ngoái, Bev Standing, một diễn viên lồng tiếng, đã cáo buộc rằng TikTok đã sử dụng – nhưng không đền bù cho cô ấy – tính năng chuyển văn bản thành giọng nói bằng AI tính năng. Tạp chí Phố Wall báo cáo rằng nhiều công ty đã cố gắng sao chép giọng nói của Morgan Freeman trong các bản demo riêng tư. Và các hãng phim đang ngày càng bổ sung các điều khoản trong hợp đồng tìm cách sử dụng giọng nói tổng hợp thay cho người biểu diễn “khi cần thiết”, chẳng hạn như để điều chỉnh lời thoại trong quá trình hậu sản xuất.

Deepdub nói rằng họ không tham gia vào việc tạo ra các bản deepfake và làm việc với những người biểu diễn để đảm bảo rằng họ hiểu giọng nói của mình đang được sử dụng như thế nào. Chúng tôi đã liên hệ với công ty với danh sách chi tiết các câu hỏi và sẽ cập nhật phần này sau khi chúng tôi nhận được phản hồi.

“Đại dịch đã thay đổi mãi mãi cách mọi người trên toàn cầu xem nội dung, cho dù đó là nội dung giải trí bằng cách sử dụng một trong nhiều nền tảng và dịch vụ phát trực tuyến hay thông qua nền tảng học tập điện tử, podcast và sách nói. Điều này dẫn đến việc khán giả ngày càng được tiếp xúc nhiều hơn với nội dung không phải bằng ngôn ngữ địa phương của họ,” Krakowski tiếp tục. “[Deepdub] bắt đầu năm 2021 với bảy nhân viên và tăng lên hơn 30 nhân viên vào đầu năm 2022. Chúng tôi dự kiến ​​​​sẽ tăng gấp đôi quy mô đó vào cuối năm nay.”