Tin tức và phân tích của tất cả các thiết bị di động

MusicGen của Meta có mặt để bắt đầu một kỷ nguyên mới trong ngành công nghiệp âm nhạc

Meta gần đây đã công bố MusicGen, một trình tạo nhạc được hỗ trợ bởi AI có thể biến mô tả văn bản thành âm thanh dài 12 giây. Công ty cũng đã mở nguồn cho nó, mặc dù Google đã chọn cách khác. Hôm nay, chúng tôi sẽ giải thích MusicGen của Meta là gì và cách sử dụng nó!

Phần lớn các hoạt động nghệ thuật đã bị ảnh hưởng bởi AI và ngành kinh doanh âm nhạc hiện đang chịu ảnh hưởng vững chắc của AI. Tương tự như ChatGPT hoặc các văn bản tạo văn bản AI dựa trên mô hình ngôn ngữ khổng lồ khác, Meta gần đây đã công bố sự sẵn có của phiên bản nguồn mở của mô hình AI của họ để tạo nhạc.

MusicGen là gì?

MusicGen được xây dựng trên mô hình Transformer, cũng như phần lớn các mô hình ngôn ngữ được sử dụng ngày nay. MusicGen dự đoán đoạn tiếp theo của bản nhạc theo cách tương tự như cách mô hình ngôn ngữ dự đoán các chữ cái sau trong một cụm từ.

Các nhà nghiên cứu sử dụng mã thông báo âm thanh EnCodec của Meta để chia dữ liệu âm thanh thành các phần nhỏ hơn. MusicGen là phương pháp tiếp cận một giai đoạn nhanh chóng và hiệu quả, thực hiện xử lý mã thông báo song song.

Để huấn luyện, phi hành đoàn đã sử dụng 20.000 giờ âm nhạc được cấp phép. Họ đã sử dụng 10.000 bản ghi âm chất lượng cao từ tập dữ liệu nội bộ cũng như dữ liệu âm nhạc Shutterstock và Pond5 nói riêng.


Generative AI: Nguồn gốc của các công cụ AI phổ biến


MusicGen đặc biệt ở khả năng xử lý cả tín hiệu văn bản và âm nhạc, bên cạnh tính hiệu quả của thiết kế và tốc độ sáng tạo. Văn bản thiết lập phong cách cơ bản mà sau đó âm nhạc của tệp âm thanh sẽ tuân theo.

Chẳng hạn, bạn không thể thay đổi chính xác hướng của giai điệu để có thể nghe nó theo nhiều phong cách âm nhạc khác nhau. Nó không được phản ánh hoàn hảo ở đầu ra và chỉ đóng vai trò là hướng dẫn chung cho thế hệ.

Chưa có nhiều phiên bản tạo âm nhạc chất lượng cao được cung cấp cho công chúng, mặc dù thực tế là nhiều mô hình khác đang chạy tính năng tạo văn bản, tổng hợp giọng nói, đồ họa được tạo và thậm chí cả video ngắn.

Các bài học đi cùng với nó, có thể truy cập được trên trang arXiv in sẵn, tuyên bố rằng một trong những khó khăn chính với âm nhạc là nó đòi hỏi phải chạy toàn bộ phổ tần số, đòi hỏi phải lấy mẫu chuyên sâu hơn. Chưa kể đến sự sáng tác phức tạp và các nhạc cụ chồng chéo của âm nhạc.

Làm cách nào để sử dụng MusicGen?

Thông qua API ôm mặt, người dùng có thể dùng thử MusicGen, mặc dù tùy thuộc vào số lượng người dùng đang sử dụng nó cùng một lúc, có thể mất một chút thời gian để tạo bất kỳ bản nhạc nào. Để có kết quả nhanh hơn đáng kể, bạn có thể sử dụng trang web Ôm mặt để thiết lập phiên bản mô hình của riêng bạn. Nếu bạn có đủ kỹ năng và thiết bị cần thiết, bạn có thể tải mã xuống và thay vào đó hãy thực hiện nó theo cách thủ công.

Nếu bạn đang muốn dùng thử phiên bản trang web, giống như hầu hết những người khác, thì đây là cách bạn thực hiện:

  1. Mở của bạn trình duyệt web.
  2. đi đến Trang web Ôm Mặt.
  3. Nhấp chuột Không gian ở trên cùng bên phải.
  4. Kiểu “MusicGen” vào hộp tìm kiếm.
  5. Tìm một cái đã được xuất bản bởi Facebook.
  6. Nhập của bạn lời nhắc vào hộp ở bên trái.
  7. Nhấp chuột Phát ra.

Làm thế nào nó hoạt động?

Mô tả của bạn được mô hình MusicGen sử dụng để tạo ra âm thanh 12 giây. Cũng có thể cung cấp một tệp âm thanh tham chiếu mà từ đó một giai điệu phức tạp sẽ được tạo ra. Bằng cách sử dụng âm thanh tham chiếu, mô hình sẽ nỗ lực tạo ra âm nhạc phản ánh tốt hơn thị hiếu của người dùng bằng cách tuân thủ cả mô tả và giai điệu được cung cấp.

Chúng tôi giới thiệu MusicGen: Một mô hình tạo nhạc đơn giản và có thể kiểm soát được. MusicGen có thể được nhắc nhở bằng cả văn bản và giai điệu.
Chúng tôi phát hành mã (MIT) và mô hình (CC-BY NC) cho nghiên cứu mở, khả năng tái tạo và cho cộng đồng âm nhạc: https://t.co/OkYjL4xDN7 pic.twitter.com/h1l4LGzYgf

– Felix Kreuk (@FelixKreuk) Tháng sáu 92023

Mô hình này sử dụng mã thông báo âm thanh EnCodec dựa trên mô hình ngôn ngữ biến đổi, như Kreuk đã nêu. Thông qua API Ôm Mặt, người dùng có thể thử nghiệm MusicGen, mặc dù tùy thuộc vào số lượng người dùng đang sử dụng nó cùng một lúc, có thể mất một chút thời gian để tạo bất kỳ bản nhạc nào. Để có kết quả nhanh hơn đáng kể, bạn có thể sử dụng trang web Ôm mặt để thiết lập phiên bản mô hình của riêng bạn. Nếu bạn có các kỹ năng và thiết bị cần thiết, bạn có thể tải mã xuống và thực thi mã theo cách thủ công.

MusicGen so với Google MusicLM

MusicGen dường như tạo ra kết quả tốt hơn một chút. Các nhà nghiên cứu chứng minh điều này bằng cách so sánh kết quả đầu ra của MusicGen với kết quả của MusicLM, Riffusion và Musai trên một trang web mẫu. Nó có bốn kích cỡ mô hình, từ nhỏ (300 triệu tham số) đến lớn (3.3 tỷ tham số), trong đó cái sau có tiềm năng nhất để tạo ra âm nhạc phức tạp. Nó có thể được vận hành cục bộ (đề xuất GPU có ít nhất 16GB RAM).

Một trong nhiều ví dụ về cách Meta sử dụng AI để xây dựng trải nghiệm phong phú và hấp dẫn cho người tiêu dùng là MusicGen. Mục tiêu của Meta là tạo ra một thế giới ảo chia sẻ được gọi là metaverse nơi người dùng có thể tương tác, cộng tác và giải trí trên nhiều nền tảng và thiết bị. Metaverse sẽ trở nên thú vị và âm nhạc hơn nhờ MusicGen.