Tin tức và phân tích của tất cả các thiết bị di động

Hệ thống mới của Baidu có thể học cách làm quen với giọng

Với hệ thống mới, hệ thống có thể học khoảng 100.000 từ với nửa giờ dữ liệu và có thể tạo ra những bài phát biểu không thể phân biệt được với giọng nói của con người.

Gã khổng lồ tìm kiếm Trung Quốc Baidu đã giới thiệu một hệ thống mới có tên ‘DeepVoice’ vào đầu năm nay. Sử dụng deep learning, một kỹ thuật trí tuệ nhân tạo phổ biến, hệ thống này nhằm mục đích tạo ra một hệ thống chuyển đổi văn bản thành giọng nói. Phiên bản đầu tiên của hệ thống có thể tạo ra những câu ngắn gần như không thể phân biệt được với lời nói thật của con người. Hệ thống này có thể học từng âm thanh một và cần hàng giờ dữ liệu để học thành thạo từng âm thanh.

DeepVoice được giới thiệu vào tháng 5 2Khi đạt đến giai đoạn có thể bắt chước giọng nói với nửa giờ dữ liệu, anh ấy có thể học hàng trăm giọng khác nhau. Hôm nay, Baidu sẽ tung ra phiên bản thứ ba và cuối cùng của DeepVoice. Theo công ty, phiên bản này có thể học 10.000 giọng nói khác nhau chỉ trong nửa giờ xếp chồng dữ liệu. Baidu cho biết trong một tuyên bố: “Khả năng tái tạo hiệu quả nhiều loại âm thanh mang lại nhiều lợi ích. Ví dụ: mỗi nhân vật trong sách nói hoặc trò chơi điện tử có thể được sử dụng bằng giọng nói riêng của họ để mang lại trải nghiệm phong phú hơn cho người dùng.”

Điều Badiu đang cố gắng làm là tạo ra một hệ thống có thể nắm vững sự khác biệt về sắc thái giữa các giọng hoặc ký tự khác nhau. “Nghiên cứu này là nghiên cứu đầu tiên chứng minh khả năng ứng dụng của hệ thống. Hệ thống của chúng tôi đưa giáo dục vào cuộc sống theo thước đo và hiệu quả mà các mô hình dựa trên văn bản-lời nói đã xuất bản trước đây không thể đạt được. Chúng tôi tin rằng chúng tôi có thể cải thiện hơn nữa chất lượng này trong tương lai gần bằng cách sử dụng các bộ dữ liệu chất lượng cao với các phương pháp kỹ thuật học máy bổ sung.”

Nguồn: https://www.theverge.com/2017/10/24/16526370/baidu-deepvoice-3-ai-text-to-speech-giọng nói