Tin tức và phân tích của tất cả các thiết bị di động

AudioLM bắt chước giọng nói và âm nhạc một cách rõ ràng

  • Bộ phận nghiên cứu của Google đã ra mắt AudioLM, một khuôn khổ để tạo ra âm thanh chất lượng cao, duy trì tính nhất quán theo thời gian.
  • Điều tuyệt vời nhất là nó làm như vậy mà không cần ghi lại hoặc chú thích trước đó, mặc dù thực tế là giọng nói được tạo ra có thể chấp nhận được về mặt cú pháp và ngữ nghĩa.
  • Hơn nữa, nó giữ danh tính và ngữ điệu của người nói đến mức người nghe không thể phân biệt được phần nào của âm thanh là thật và phần nào được tạo ra bởi trí tuệ nhân tạo.
  • Tính năng quan trọng nhất của trí tuệ nhân tạo AudioLM là khả năng hoàn thành nhiều nhiệm vụ cùng một lúc, không chỉ lặp lại các cuộc nói chuyện và giai điệu.
  • AudioLM chưa được truy cập công khai; nó chỉ là một mô hình ngôn ngữ có thể được áp dụng trong nhiều ứng dụng khác nhau.

Chúng tôi cho họ xem các ván cờ và họ nhanh chóng trở thành đối thủ bất bại; chúng tôi cho họ đọc tin nhắn của mình và họ nhanh chóng bắt đầu viết. Họ cũng học vẽ và chỉnh sửa ảnh. Có ai nghi ngờ rằng trí tuệ nhân tạo có thể làm được điều tương tự với lời nói và âm nhạc không?

AudioLM của Google thực hiện những điều kỳ diệu cả với giọng nói và âm nhạc

Nhóm nghiên cứu của Google đã ra mắt AudioLM, một khuôn khổ để tạo ra âm thanh chất lượng cao duy trì tính nhất quán theo thời gian. Để làm điều này, nó bắt đầu bằng một bản ghi chỉ dài vài giây và có khả năng mở rộng nó một cách tự nhiên và hợp lý.

Khía cạnh ấn tượng nhất là nó làm được điều đó mà không cần được dạy bằng các bản ghi hoặc chú thích trước đó, mặc dù thực tế là lời nói được tạo ra rất hợp lý về mặt cú pháp và ngữ nghĩa. Hơn nữa, nó bảo tồn danh tính và ngữ điệu của người nói đến mức người nghe không thể xác định được phần âm thanh nào là thật và phần nào được tạo ra bởi trí tuệ nhân tạo.

AI mới không chỉ bắt chước giọng nói mà còn cả tiếng ồn xung quanh

Các ứng dụng của trí tuệ nhân tạo thật đáng kinh ngạc. Nó không chỉ có thể bắt chước cách phát âm, cao độ, âm sắc và cường độ mà còn có thể tạo ra âm thanh hơi thở của người nói và tạo ra các cụm từ dễ hiểu. Nếu đó không phải từ phòng thu mà là từ bản ghi có tiếng ồn xung quanh, AudioLM sẽ bắt chước bản ghi đó để đảm bảo tính liên tục. Nhiều ví dụ khác có sẵn trên Trang web AudioLM.

AudioLM được đào tạo về ngữ nghĩa và âm học

Việc tạo ra âm thanh hoặc âm nhạc không phải là một hiện tượng mới. Tuy nhiên, đó là cách tiếp cận được các nhà nghiên cứu của Google thực hiện để giải quyết vấn đề. Các chỉ báo ngữ nghĩa (âm vị, từ vựng, ngữ nghĩa…) và các dấu hiệu âm thanh (nhận dạng người nói, chất lượng ghi âm, tiếng ồn nền…) được thu thập từ mỗi âm thanh để mã hóa cấu trúc cấp cao (âm vị, từ vựng, ngữ nghĩa…).

Với dữ liệu này đã được xử lý và AI có thể hiểu được, AudioML bắt đầu công việc của mình bằng cách xây dựng một hệ thống phân cấp trong đó nó dự đoán các dấu hiệu ngữ nghĩa trước tiên, sau đó được sử dụng làm các ràng buộc để dự báo các dấu hiệu âm thanh. Cái sau được sử dụng một lần nữa ở phần cuối để biến các bit thành thứ mà chúng ta có thể nghe thấy.

AudioLM tốt hơn đáng kể trong việc tiếp tục sáng tác piano khi so sánh với các mô hình được đào tạo bằng cách sử dụng các điểm đánh dấu thính giác

Sự phân tách ngữ nghĩa và phân cấp âm học này không chỉ hữu ích cho việc đào tạo các mô hình ngôn ngữ tạo ra lời nói. Theo các nhà nghiên cứu, việc tiếp tục sáng tác piano cũng thành công hơn, như đã trình bày trên trang web của họ. Nó vượt trội hơn các mô hình được đào tạo độc quyền bằng cách sử dụng các điểm đánh dấu thính giác.


Pháp bắt đầu sử dụng trí tuệ nhân tạo để khám phá các bể bơi chịu thuế


Khía cạnh quan trọng nhất của trí tuệ nhân tạo AudioLM là nó có thể thực hiện mọi thứ cùng một lúc chứ không chỉ lặp lại các bài phát biểu và giai điệu. Do đó, đây là một mô hình ngôn ngữ duy nhất có thể được sử dụng để chuyển văn bản thành giọng nói – robot có thể đọc toàn bộ tiểu thuyết và thay thế các diễn viên lồng tiếng chuyên nghiệp – hoặc cho phép bất kỳ thiết bị nào có thể nói chuyện với con người bằng giọng nói quen thuộc. Amazon đã điều tra khả năng sử dụng giọng nói của những người thân yêu trong các thiết bị Alexa của mình.

AI ngày càng trở nên nguy hiểm hơn?

Các chương trình tương tự DALL-E 2 và Khuếch tán ổn định là những công cụ tuyệt vời để nhanh chóng phác thảo ý tưởng hoặc tạo ra các tài liệu sáng tạo. Âm thanh có thể quan trọng hơn nhiều và người ta có thể thấy các công ty sử dụng giọng nói của phát thanh viên theo yêu cầu. Giọng của các diễn viên đã ra đi thậm chí có thể được sử dụng trong lồng tiếng cho phim.

Mặc dù AI này có thể tạo ra bài phát biểu vô cùng thuyết phục nhưng điều này cũng gây ra rủi ro cho các bài phát biểu bịa đặt.

Có thể bạn đang nghĩ ý tưởng này tuy ly kỳ nhưng cũng đầy rủi ro. Bất kỳ bản ghi âm nào cũng có thể bị giả mạo vì mục đích chính trị, pháp lý hoặc tư pháp. Theo Google, trong khi mọi người gặp khó khăn trong việc phân biệt giữa những gì đến từ con người và những gì đến từ trí tuệ nhân tạo, thì máy tính có thể phân biệt được âm thanh đó có phải là hữu cơ hay không. Không chỉ những cỗ máy đó có thể thay thế chúng ta mà còn cần một cỗ máy khác để đánh giá công việc của chúng.


Việc làm trí tuệ nhân tạo đang có nhu cầu cao: Đây là con đường sự nghiệp


AudioLM chưa được cung cấp rộng rãi; nó chỉ là một mô hình ngôn ngữ có thể được triển khai trong nhiều ứng dụng khác nhau. Tuy nhiên, ví dụ này cùng với Phần mềm nghe nhạc Jukebox của OpenAInêu bật tốc độ chúng ta đang bước vào một thế giới mới, nơi sẽ không ai biết hoặc quan tâm xem bức ảnh đó có được chụp bởi một người hay không hoặc có ai đó ở đầu bên kia của điện thoại hay không.