Tin tức và phân tích của tất cả các thiết bị di động

MidJourney vs. khuếch tán ổn định vs. Trình tạo hình ảnh Bing

Trí tuệ nhân tạo đang thay đổi thế giới nghệ thuật theo những cách phi thường. Một trong những ứng dụng hấp dẫn của trí tuệ nhân tạo trong lĩnh vực nghệ thuật là việc sử dụng các trình tạo đồ họa mô tả. Những máy tạo này có khả năng nghiên cứu và giải thích hình ảnh và tạo ra các tác phẩm nghệ thuật hoàn toàn mới dựa trên phân tích của chúng.

Trong bài viết này, chúng tôi thảo luận về ba trình tạo đồ họa AI như vậy: MidJourney, Stable Diffusion và Microsoft Bing Image Creator, trong số ba trình tạo này hoạt động tốt nhất trong việc tạo ra kết quả tốt nhất dựa trên lời nhắc.

Nội dung:

Chuyển đổi

  • Giữa chuyến đi
  • Khuếch tán ổn định
  • Trình tạo hình ảnh Microsoft Bing
    • Gợi ý 1: Ông già Noel hiện đại trên chiếc xe trượt tuyết do tuần lộc kéo vào một ngày nắng ấm áp trên đường cao tốc
    • Gợi ý 2: Cận cảnh một con vật có đôi mắt to, thể hiện sự ngây thơ và quyến rũ
    • Gợi ý 3: Một phi hành gia con người hạ cánh xuống một hành tinh mới được chào đón bởi những sinh vật ngoài hành tinh thù địch đang rút vũ khí
    • Gợi ý 4: Nghệ thuật bìa sách trừu tượng hiện đại từ New York với màu sắc tươi sáng, đậm nét
    • Gợi ý 5: Một người đàn ông đang quyết định giữa hai đĩa – một đĩa có pizza và đĩa kia có bánh mì kẹp phô mai
    • Gợi ý 6: Một chiến binh bị thương cưỡi ngựa băng qua ngọn núi tuyết với thanh kiếm trên tay
    • Gợi ý 7: Một hình ảnh trừu tượng với nhiều sắc thái khác nhau thể hiện sự chuyển động và dòng chảy của nước
    • Gợi ý 8: Cá hồi trên dòng sông với hàng cây xanh tươi phía sau
    • Gợi ý 9: Một cốc nước trên bàn có vắt chanh bằng tay
    • Gợi ý 10: Quang cảnh đường chân trời trên sa mạc từ góc nhìn của người cưỡi voi băng qua sa mạc
    • Gợi ý 11: Khu rừng tiền giấy mọc trên cây và chim làm từ tiền xu
    • Gợi ý 12: Bát ramen, mục tiêu tạo bóng, ánh sáng buổi tối, ảnh thực
    • Gợi ý 13: Elon Musk nghèo và thất nghiệp
    • Phán quyết
    • Chia sẻ bài viết này!

Giữa chuyến đi

MidJourney, được thành lập bởi David Holz, là một công cụ tạo đồ họa AI sử dụng máy học để xác định các mẫu và tính năng trong các tác phẩm nghệ thuật hiện có, sau đó có thể được sử dụng để tạo ra các tác phẩm mới.

MidJourney bước vào giai đoạn thử nghiệm mở vào ngày 12 tháng 7 năm 2022. Trước khi ra mắt MidJourney, Holz đã đồng sáng lập Leap Motion, một công ty khởi nghiệp chuyên chuyển đổi giao diện người dùng bằng cách sử dụng tính năng quay video và cử chỉ tay. Năm 2019, anh bán Leap Motion cho Ultrahaptics.

Khi sự nổi tiếng của MidJourney ngày càng tăng, Holz chia sẻ những hiểu biết sâu sắc của mình về công nghệ cũng như tác động của nó đối với nghệ thuật và xã hội. Holz coi các nghệ sĩ là khách hàng của MidJourney chứ không phải đối thủ cạnh tranh và tin rằng nền tảng này có thể tạo điều kiện thuận lợi cho sự sáng tạo và thử nghiệm nhiều hơn trong giai đoạn lên ý tưởng.

Tuy nhiên, có những lo ngại về khả năng vi phạm bản quyền từ bộ công cụ đào tạo MidJourney, có thể chứa các tác phẩm có bản quyền của các nghệ sĩ khác.

Holz nhấn mạnh rằng MidJourney được thiết kế để nâng cao khả năng của con người chứ không phải thay thế chúng. Anh ấy so sánh nó với ô tô, giải thích rằng chỉ vì ô tô nhanh hơn người không có nghĩa là chúng ta nên cắt bỏ đôi chân của mình.

Sử dụng tính năng tạo hình ảnh AI trong MidJourney, các nghệ sĩ có thể khám phá những khả năng mới và tạo ra nhiều ý tưởng trước khi tạo ra tác phẩm của riêng mình.

Khuếch tán ổn định

Khuếch tán ổn định là một mô hình học máy nguồn mở có thể tạo hình ảnh từ văn bản, sửa đổi hình ảnh từ văn bản hoặc điền chi tiết vào hình ảnh có độ phân giải thấp hoặc độ chi tiết thấp. Nó đã được đào tạo trên hàng tỷ hình ảnh và có thể tạo ra kết quả tương đương với kết quả bạn có thể nhận được từ DALL-E 2 và MidJourney.

Emad Mostaque, người sáng lập và CEO của Stability AI, là công ty đứng sau Stable Diffusion. Khuếch tán ổn định là mô hình khuếch tán tiềm ẩn được phát triển bởi nhóm CompVis tại LMU Munich và được thiết kế bởi Patrick Esser và Robin Rombach, những người trước đây đã tạo ra kiến ​​trúc mô hình khuếch tán tiềm ẩn được sử dụng bởi Stable Diffusion.

Sự hợp tác giữa Stability AI, CompVis LMU, Runway, EleutherAI và LAION đã cung cấp rộng rãi Stable Diffusion.

Phân phối ổn định có thể được triển khai trên các nền tảng, bao gồm cả các thiết bị đang chạy Windows Và Apple. Việc sử dụng triển khai trên thiết bị trong ứng dụng của bạn có thể bảo vệ quyền riêng tư của người dùng, điều này tốt hơn phương pháp dựa trên máy chủ.

Trình tạo hình ảnh Microsoft Bing

Microsoft đã tiết lộ một công cụ mới có tên Bing Image Creator cho phép người dùng tạo hình ảnh của riêng họ trực tiếp trong trình duyệt Microsoft Edge. Công ty đã phát hành một bộ công cụ sáng tạo được thiết kế để khơi dậy sự sáng tạo và thể hiện bản thân. Công cụ này cho phép người dùng tạo các hình ảnh được cá nhân hóa để chia sẻ thông tin cập nhật về cuộc sống hoặc cho bất kỳ mục đích nào khác mà họ có thể cần.

Người dùng có thể dễ dàng truy cập Image Creator từ thanh bên Microsoft Edge. Microsoft đã thực hiện các bước chủ động để đảm bảo rằng công cụ này được sử dụng một cách có trách nhiệm và không tạo điều kiện cho việc phổ biến nội dung phản cảm.

Công ty đã thiết lập chính sách nội dung cấm sử dụng Image Creator trong một số trường hợp nhất định và người dùng có thể báo cáo bất kỳ hành vi vi phạm chính sách này. Ngoài ra, Microsoft đã triển khai công nghệ để giải quyết các biến thể tiềm ẩn có thể xảy ra trong công nghệ tạo ảnh tổng hợp.

Trong bài viết này, chúng ta sẽ thực hiện hành trình đánh giá hiệu suất của từng trình tạo hình ảnh AI mô tả khi được nhắc bằng các lời nhắc văn bản giống hệt nhau.

Gợi ý 1: Ông già Noel hiện đại trên chiếc xe trượt tuyết do tuần lộc kéo vào một ngày nắng ấm áp trên đường cao tốc

Gợi ý 2: Cận cảnh một con vật có đôi mắt to, thể hiện sự ngây thơ và quyến rũ

Gợi ý 3: Một phi hành gia con người hạ cánh xuống một hành tinh mới được chào đón bởi những sinh vật ngoài hành tinh thù địch đang rút vũ khí

Gợi ý 4: Nghệ thuật bìa sách trừu tượng hiện đại từ New York với màu sắc tươi sáng, đậm nét

Gợi ý 5: Một người đàn ông đang quyết định giữa hai đĩa – một đĩa có pizza và đĩa kia có bánh mì kẹp phô mai

Gợi ý 6: Một chiến binh bị thương cưỡi ngựa băng qua ngọn núi tuyết với thanh kiếm trên tay

Gợi ý 7: Một hình ảnh trừu tượng với nhiều sắc thái khác nhau thể hiện sự chuyển động và dòng chảy của nước

Gợi ý 8: Cá hồi trên dòng sông với hàng cây xanh tươi phía sau

Gợi ý 9: Một cốc nước trên bàn có vắt chanh bằng tay

Gợi ý 10: Quang cảnh đường chân trời trên sa mạc từ góc nhìn của người cưỡi voi băng qua sa mạc

Gợi ý 11: Khu rừng tiền giấy mọc trên cây và chim làm từ tiền xu

Gợi ý 12: Bát ramen, mục tiêu tạo bóng, ánh sáng buổi tối, ảnh thực

Gợi ý 13: Elon Musk nghèo và thất nghiệp

Phán quyết

Sau khi đánh giá kết quả của MidJourney, Stable Diffusion và Bing Image Creator, rõ ràng là không có người chiến thắng cuối cùng.

Mỗi trình tạo diễn giải lời nhắc theo một cách riêng biệt, có những điểm tương đồng trong đầu ra của Bing Image Creator và MidJourney. Sự khuếch tán ổn định sẽ có hiệu quả khi lời nhắc có mô tả rõ ràng nhưng thường diễn đạt từ ngữ quá theo nghĩa đen. Mặc dù MidJourney và Bing Image Creator nhìn chung có hiệu quả nhưng đôi khi chúng tạo ra kết quả không khớp với lời nhắc.

Điều đáng chú ý là Bing Image Creator rất cẩn thận trong việc tạo ra bất kỳ kết quả xúc phạm hoặc kích động nào, đồng thời hiển thị thông báo cảnh báo khi được nhắc tạo hình ảnh của Elon Musk nghèo khổ và thất nghiệp. Việc áp dụng các biện pháp bảo vệ như vậy của Microsoft là đáng khen ngợi.

Trong khi đó, chuyên môn của MidJourney về mạng lưới thần kinh đã tạo ra hình ảnh một Elon Musk cơ cực và bị bỏ rơi. Vì vậy, có thể kết luận rằng mỗi trình tạo sẽ phục vụ cơ sở người dùng phù hợp.

Mục lục