Tin tức và phân tích của tất cả các thiết bị di động

VALL-E: Công cụ AI của Microsoft có thể bắt chước giọng nói của con người

Microsoft giới thiệu VALL-E, công cụ trí tuệ nhân tạo có thể tái tạo giọng nói của bất kỳ người nào.

Chia sẻ bài viết

/

VALL-E là gì?

VALL-E là một mô hình trí tuệ nhân tạo mới do Microsoft phát triển, có thể mô phỏng giọng nói của một người chỉ từ một mẫu âm thanh 3 giây. Nó chính xác hơn là một mô hình ngôn ngữ để tổng hợp giọng nói (Text-To-Speech). VALL-E đã được đào tạo về “60.000 giờ nói tiếng Anh, gấp hàng trăm lần so với các hệ thống hiện có. »

Ưu điểm của công cụ mới này: nó có thể duy trì giọng điệu và cảm xúc của người nói, điều này cho phép bắt chước thậm chí còn giống con người hơn và do đó chân thực hơn.

VALL-E có khả năng học tập trong ngữ cảnh và có thể được sử dụng để tổng hợp giọng nói được cá nhân hóa chất lượng cao chỉ bằng bản ghi âm 3 Microsoft cho biết vài giây từ một người nói không xác định dưới dạng hướng dẫn âm thanh.

Ví dụ âm thanh của VALL-E

VALL-E vẫn chưa có sẵn cho công chúng vào thời điểm này. Tuy nhiên, bạn có thể nghe ví dụ về âm thanh trên trang chuyên dụng này trên GitHub. Trang này được tạo ra chỉ nhằm mục đích trình diễn nghiên cứu. Thật thú vị khi xem những gì VALL-E có thể mang lại một cách cụ thể. Một số đoạn âm thanh hoạt động tốt nhưng những đoạn khác vẫn có thể phát hiện được giọng nói máy tính. Mọi thứ vẫn chưa hoàn hảo về phía VALL-E, nhưng công việc của Microsoft về chủ đề này mới chỉ ở bước đầu.

Một cánh cửa mở ra cho sự thái quá?

Một lần nữa, câu hỏi được đặt ra: liệu một công cụ như VALL-E có nguy hiểm không nếu nó được mở rộng cho công chúng? Deepfake cho hình ảnh đã tạo ra tỷ lệ dư thừa… điều gì sẽ xảy ra với trường giọng nói? Đúng là công cụ AI của Microsoft có thể được sử dụng để mạo danh giọng nói nếu công cụ này tỏ ra thực sự hiệu quả. Đối với ChatGPT, sẽ có nhiều lo ngại nếu mọi người đều có thể truy cập được VALL-E.

Vì VALL-E có thể tổng hợp giọng nói để bảo toàn danh tính của người nói nên nó có thể tiềm ẩn nguy cơ lạm dụng mô hình, chẳng hạn như giả mạo nhận dạng giọng nói hoặc mạo danh một người nói cụ thể. . Microsoft cho biết, chúng tôi đã tiến hành thử nghiệm với giả định rằng người dùng đồng ý trở thành người nói mục tiêu trong quá trình tổng hợp giọng nói.

VALL-E, gật đầu với DALL-E: tại sao?

Cái tên VALL-E rõ ràng được lấy cảm hứng từ DALL-E, trình tạo hình ảnh trí tuệ nhân tạo được thiết kế bởi OpenAI. Và đó không phải là sự trùng hợp ngẫu nhiên. Vào đầu năm, Microsoft dường như đang đặt cược mọi thứ vào công nghệ OpenAI và thậm chí có thể đầu tư tới 10 tỷ USD vào công ty này theo nguồn tin Semafor. Microsoft đặt mục tiêu tích hợp chatbot Open AI vào ChatGPT, Word cũng như Bing, công cụ tìm kiếm của hãng.

Mục lục