Tin tức và phân tích của tất cả các thiết bị di động

Trí tuệ nhân tạo của Microsoft có thể bắt chước mọi âm thanh: VALL-E

Microsoft VALL-E, được Microsoft phát triển về tổng hợp văn bản thành giọng nói, đã được hãng này phát triển. trong một bài báo đăng được công bố. Mô hình âm thanh chỉ được sử dụng để xử lý đầu vào nhất định. 3 Yêu cầu tập tin âm thanh một giây.

Microsoft đã phát hành Microsoft VALL-E, một phương pháp tiếp cận mô hình ngôn ngữ mới để tổng hợp văn bản thành giọng nói (TTS) sử dụng mã codec âm thanh làm biểu diễn trung gian. Mô hình này đã được đào tạo trước trên 60.000 giờ dữ liệu nói tiếng Anh và sau đó thể hiện khả năng học tập theo ngữ cảnh trong điều kiện không trọng lực.

Microsoft VALL-E có thể tạo giọng nói được cá nhân hóa chỉ bằng bản ghi giọng nói dài ba giây. Nó thực hiện điều này mà không cần thêm kỹ thuật kết cấu, tính năng âm thanh được thiết kế sẵn hoặc tinh chỉnh. Nó hỗ trợ mô hình học tập theo ngữ cảnh và các phương pháp tiếp cận TTS không trúng đích dựa trên lời nhắc. Có vẻ như việc mở rộng dữ liệu bán giám sát cho TTS không được tận dụng đúng mức do Microsoft sử dụng một lượng đáng kể dữ liệu bán giám sát để tạo ra hệ thống TTS tổng quát có kích thước bằng loa.

VALL-E là gì, bạn có thể làm gì?

Theo các nhà nghiên cứu, Microsoft VALL-E là một “mô hình ngôn ngữ codec thần kinh” được đào tạo bằng cách sử dụng các mã rời rạc “bắt nguồn từ mô hình codec âm thanh thần kinh có sẵn từ trước”. Theo tuyên bố, nó đã được đào tạo về 60.000 giờ đàm thoại, “gấp hàng trăm lần so với các hệ thống hiện có”. Những ví dụ này rất thuyết phục, không giống như những nỗ lực trước đây rõ ràng là bằng robot, mặc dù trí tuệ nhân tạo có thể bắt chước giọng nói của con người một cách thực tế đã xuất hiện được một thời gian.

Theo các nhà nghiên cứu, Microsoft VALL-E có thể “bảo vệ cảm xúc và môi trường thính giác của người nói”. Mặc dù ấn tượng nhưng công nghệ vẫn còn lâu mới có thể thay thế được diễn viên lồng tiếng, vì việc tìm ra giai điệu và cảm xúc phù hợp trong quá trình biểu diễn là rất khác nhau. Ngay cả phiên bản nâng cao của Microsoft VALL-E cũng không thể hoạt động tốt như một chuyên gia lành nghề nhưng các doanh nghiệp thường ưu tiên hiệu quả chi phí hơn chất lượng.

của Microsoft trên bản demo GitHub Bạn có thể nghe một số ví dụ.

Tính năng của Microsoft VALL-E

Mặc dù Microsoft VALL-E còn rất mới nhưng nó đã có nhiều tính năng.

  • Tổng hợp sự đa dạng: Vì Microsoft VALL-E tạo ra các mã thông báo riêng biệt bằng kỹ thuật dựa trên lấy mẫu nên đầu ra của nó sẽ thay đổi đối với cùng một văn bản đầu vào. Vì lý do này, nó có thể tổng hợp các mẫu giọng nói được cá nhân hóa khác nhau bằng cách sử dụng nhiều hạt giống ngẫu nhiên khác nhau.
  • Bảo trì môi trường âm thanh: Microsoft VALL-E có thể cung cấp giọng nói tùy chỉnh trong khi vẫn duy trì môi trường âm thanh của lời nhắc người phát biểu. So với đường cơ sở, VALL-E được đào tạo trên tập dữ liệu lớn với nhiều biến âm thanh hơn. Âm thanh và bản ghi âm được tạo bằng cách sử dụng các mẫu từ bộ dữ liệu Fisher.
  • chăm sóc cảm xúc của diễn giả: Sử dụng Cơ sở dữ liệu Âm thanh Cảm xúc làm tài nguyên, Microsoft VALL-E có thể tạo giọng nói tùy chỉnh, chẳng hạn như lệnh thoại trong khi vẫn giữ được tông màu cảm xúc của lệnh của người phát biểu. Các phương pháp tiếp cận truyền thống đào tạo một mô hình bằng cách liên kết lời nói với phiên âm và thẻ cảm xúc từ bộ dữ liệu TTS cảm xúc được kiểm soát. VALL-E có thể duy trì cảm xúc của lời nhắc ngay cả trong tình huống không bắn được.

Microsoft VALL-E vẫn gặp vấn đề với cấu trúc mô hình, phạm vi bao phủ dữ liệu và độ bền tổng hợp.

Microsoft VALL-E hoạt động như thế nào?

Microsoft đã sử dụng LibriLight, một thư viện âm thanh do Meta tổng hợp để rèn luyện kỹ năng tổng hợp của VALL-E. Phần lớn trong số 60.000 giờ bài phát biểu bằng tiếng Anh được lấy từ sách nói trên phạm vi công cộng LibriVox và được hơn 7.000 người nói. Để VALL-E đạt được kết quả khả quan, âm thanh trong mẫu ba giây phải gần giống với âm thanh trong dữ liệu huấn luyện.

Microsoft cung cấp hàng tá ví dụ âm thanh về mô hình AI đang hoạt động trên trang mẫu VALL-E. Một ví dụ, “Lời nhắc của loa” là âm thanh dài ba giây mà VALL-E được yêu cầu mô phỏng. “Sự thật căn bản” là một câu trích dẫn đã được ghi âm trước đó của diễn giả này và được sử dụng làm điểm chuẩn (giống như “điều khiển” trong một thử nghiệm). Tùy chọn “VALL-E” là đầu ra từ mô hình VALL-E và ví dụ “Baseline” là một ví dụ về tổng hợp được tạo bằng cách sử dụng phương pháp tổng hợp văn bản thành giọng nói truyền thống.

Như vậy, chúng ta đã đi đến cuối bài viết về VALL-E. Trong khi đó, Microsoft đang phát triển công cụ tìm kiếm hỗ trợ AI bạn có biết không? Để biết chi tiết, bạn có thể kiểm tra bài viết liên quan của chúng tôi. Với tư cách là nhóm Báo cáo Kỹ thuật số, chúng tôi chúc bạn đọc vui vẻ…

Mục lục