Tin tức và phân tích của tất cả các thiết bị di động

Google tuyên bố Muse AI tốt hơn DALL-E 2

Google Muse AI là phần bổ sung mới nhất của gã khổng lồ công nghệ cho một loạt các công cụ AI mà chúng ta đã thấy gần đây. Mô hình chuyển đổi văn bản thành hình ảnh mới được tuyên bố là nhanh hơn các phương pháp cạnh tranh vì nó sử dụng giải mã song song và không gian ẩn riêng biệt, nhỏ gọn. Theo các nhà phát triển, Google Muse AI có thể tạo ra hình ảnh với hiệu suất tạo hình ảnh hiện đại.

Google Muse AI là gì?

Google Muse AI được cho là phiên bản cải tiến của các mẫu biến đổi văn bản thành hình ảnh trước đó như Imagen và DALL-E 2. Muse được đào tạo về nhiệm vụ lập mô hình đeo mặt nạ trong không gian mã thông báo rời rạc bằng cách sử dụng tính năng nhúng văn bản có được từ mô hình ngôn ngữ lớn được đào tạo trước (LLM).

Muse đã được đào tạo để xác định các token trong hình ảnh bị che khuất tùy ý. Muse tuyên bố sẽ vượt trội hơn các mô hình khuếch tán không gian pixel như Imagen và DALL-E 2 do việc sử dụng các mã thông báo riêng biệt và yêu cầu kích thước mẫu nhỏ hơn. Lặp đi lặp lại việc lấy mẫu lại các mã thông báo hình ảnh dựa trên lời nhắc văn bản, mô hình này sẽ tạo ra một bản chỉnh sửa miễn phí không cần chụp, không cần mặt nạ.

Khi so sánh với các mô hình khác, Muse có thời gian suy luận nhanh hơn. NGÂN NGA.

Người mẫuNghị quyếtThời gian suy luận (↓)
Khuếch tán ổn định 1.4512×5123.7 giây
Phần 3B256×2566.4 giây
Hình ảnh256×2569.1 giây
Hình ảnh1024×102413,3 giây
Muse-3B256×25600,5 giây
Muse-3B512×5121.3 giây

Muse sử dụng giải mã song song, tính năng này bị thiếu trong Parti và các mô hình tự hồi quy khác. Với LLM đã được đào tạo, có thể nắm bắt ngôn ngữ ở cấp độ chi tiết, từ đó chuyển sang tạo ra hình ảnh chất lượng cao và nhận biết các khái niệm trực quan như vật thể, mối quan hệ không gian, lập trường, tính chính yếu của chúng, v.v. Hơn nữa, Muse cho phép chỉnh sửa nội dung, ngoại thất và không cần mặt nạ mà không cần phải lật hoặc lật mô hình.


Kiểm tra các trình tạo nghệ thuật AI miễn phí tốt nhất


Tính năng AI của Google Muse

Muse là mô hình chỉnh sửa và tạo văn bản thành hình ảnh nhanh chóng, hiện đại và có rất nhiều tính năng hấp dẫn:

  • Tạo văn bản thành hình ảnh
    • Google Muse AI nhanh chóng tạo ra hình ảnh chất lượng cao để đáp ứng với văn bản đầu vào (1.3s cho độ phân giải 512×512 hoặc 0.5s cho độ phân giải 256×256 trên TPUv4).
  • Chỉnh sửa không cần chụp, không cần mặt nạ
    • Do việc lấy mẫu lại nhiều lần các mã thông báo hình ảnh dựa trên lời nhắc văn bản, mô hình Google Muse AI cung cấp cho chúng tôi tính năng chỉnh sửa miễn phí không cần chụp, không cần đeo mặt nạ.
  • Khi thay đổi hình ảnh, tính năng chỉnh sửa không cần mặt nạ cho phép bạn thao tác với một số đối tượng bằng một lời nhắc văn bản đơn giản.
  • Inpainting/Outpainting không cần bắn
    • Chỉnh sửa dựa trên mặt nạ (inpainting/outpainting) được bao gồm miễn phí trong Google Muse AI. Khi sử dụng mặt nạ, việc chỉnh sửa cũng giống như một thế hệ.

Chi tiết mô hình AI của Google Muse

Dưới đây bạn sẽ tìm thấy quy trình đào tạo của Google Muse AI:

Nhóm Google sử dụng hai mạng mã thông báo VQGAN riêng biệt, một mạng dành cho ảnh chất lượng thấp và một mạng dành cho ảnh có độ phân giải cao. Các mã thông báo không được che giấu và phần nhúng văn bản T5 được sử dụng để huấn luyện các máy biến áp có độ phân giải thấp (“cơ sở”) và độ phân giải cao (“siêu cấp”) để dự đoán các mã thông báo bị che giấu.

Để biết thêm thông tin chi tiết về Google Muse AI, hãy nhấp vào đây.


Bạn đang tự hỏi căn phòng của bạn sẽ như thế nào theo phong cách cyberpunk? Hãy thử AI nội thất


Các công cụ AI khác mà chúng tôi đã xem xét

Chúng tôi đã giải thích một số công cụ AI tốt nhất như Galactica AI, Notion AI, Chai, NovelAI, ChatGPT, Caktus AI, Uberduck AI, MOVIO AI, Make-A-Video và AI Dungeon của Meta. Bạn có biết còn có robot nghệ thuật AI? Kiểm tra Ai-Da.

Bạn có thích tạo hình ảnh AI không? Bạn có thể thử những công cụ này:

Đừng sợ thuật ngữ AI; chúng tôi đã tạo một bảng chú giải chi tiết về AI cho các thuật ngữ trí tuệ nhân tạo được sử dụng phổ biến nhất và giải thích những kiến ​​thức cơ bản về trí tuệ nhân tạo cũng như những rủi ro và lợi ích của trí tuệ nhân tạo.

Mục lục