Tin tức và phân tích của tất cả các thiết bị di động

Midjourney, DALL-E, Stable Diffusion: so sánh các AI tạo hình ảnh

Midjourney, Stable, DALL-E… AI tạo hình ảnh đang phát triển với tốc độ chóng mặt, nhưng không phải tất cả đều ở cùng một giai đoạn phát triển. Và tùy thuộc vào tính sẵn có của nguồn mở, có thể tìm thấy một số công cụ này trong các giải pháp khác nhau. Ví dụ: nếu có thể tạo hình ảnh bằng DALL-E trực tiếp trên nền tảng chính thức, bạn cũng có thể tìm thấy trình tạo hình ảnh OpenAI trong NightCafe hoặc Bing Image Creator.

Nhưng tất cả những AI này có bình đẳng không? Chúng tôi đã thiết lập sự so sánh này giữa 3 AI tạo hình ảnh lớn để báo cáo vào mùa hè năm 2023 về trạng thái phát triển tương ứng của chúng. Đặc biệt, nó sẽ giúp bạn biết nơi tạo ra những hình ảnh đẹp nhất, phù hợp với sở thích và nhu cầu của bạn.

Những AI tạo hình ảnh nào được so sánh?

Sự so sánh này dựa trên ba AI tạo hình ảnh chính hiện có sẵn cho công chúng. Đó là Midjourney, DALL-E và Stable Diffusion. Nhưng hướng dẫn này không chỉ so sánh ba AI này với quyền truy cập của biên tập viên. Thật vậy, DALL-E và Stable là nguồn mở, có thể tìm thấy chúng trên các trang khác hoặc trong các công cụ khác, ở các phiên bản hơi khác nhau. Dưới đây là các AI được so sánh trong hướng dẫn này, chúng đến từ đâu và công thức nào được sử dụng:

Giữa cuộc hành trình, thông qua máy chủ chính thức Discord, phiên bản trả phí, DALL-E 2thông qua trang web chính thứcphiên bản dùng thử miễn phí, DALL-E 2thông qua Quán cà phê đêmphiên bản cơ bản, DALL-E (phiên bản nâng cao), thông qua Trình tạo hình ảnh Bingxem trước miễn phí, Khuếch tán ổn định, thông qua trang web chính thứcphiên bản dùng thử miễn phí, Khuếch tán ổn định, thông qua Quán cà phê đêmphiên bản cơ bản.

Phương pháp nào để so sánh AI tạo hình ảnh?

Để so sánh các công cụ khác nhau cho phép tạo hình ảnh bằng AI, chúng tôi đã liệt kê một số loại sáng tạo. Đối với mỗi loại này, cùng một lời nhắc sẽ được viết. Nó có thể được điều chỉnh một chút tùy thuộc vào tính linh hoạt của từng công cụ, nhưng sẽ chứa các hướng dẫn giống nhau một cách có hệ thống. Đồng thời, những lời nhắc này sẽ được viết bằng tiếng Anh, vì không phải tất cả các công cụ đều có sẵn bằng tiếng Pháp hoặc không thành thạo nó một cách dễ dàng như nhau. Dưới đây là các phong cách hình ảnh khác nhau mà chúng tôi muốn so sánh:

Tạo hình ảnh chân thực, Tạo tương ứng với phong cách nghệ thuật, Tạo tương ứng với phong cách của một nghệ sĩ, Tạo chi tiết, Tạo logo và văn bản, Thử nghiệm “tưởng tượng” của AI.

Dưới đây là các phiên bản AI được sử dụng cho từng công cụ và phương tiện:

Giữa cuộc hành trình v5, DALL-E 2 (trang web chính thức và NightCafe), DALL-E 2 nâng cao (Bing Image Creator), Khuếch tán ổn định v2.1.

1. Tạo hình ảnh chân thực bằng AI

Đối với lần so sánh đầu tiên này, chúng tôi sẽ kiểm tra khả năng chụp ảnh chân thực của ba AI của chúng tôi. Tạo khuôn mặt hoặc bàn tay theo phong cách khó hiểu với thực tế không phải lúc nào cũng là một nhiệm vụ dễ dàng đối với các AI sáng tạo, hãy xem cách họ thực hiện với một truy vấn rất cơ bản. Lời nhắc: một bức ảnh thực tế của một cặp vợ chồng trẻ hạnh phúc – một bức ảnh thực tế của một cặp vợ chồng trẻ hạnh phúc.

giữa hành trình

PHIẾN 2 (trang web chính thức)

PHIẾN 2 (Quán cà phê đêm)

DALL-E (Trình tạo hình ảnh Bing)

Mức chênh lệch ổn định 2.1 (trang web chính thức)

Mức chênh lệch ổn định 2.1 (Quán cà phê đêm)

2. bắt chước một phong cách nghệ thuật

Đối với thử nghiệm thứ hai này, chúng tôi sẽ yêu cầu AI tạo hình ảnh của mình tái tạo một phong cách nghệ thuật: chủ nghĩa ấn tượng. Phong cách và xu hướng hình ảnh này là lý tưởng của các nghệ sĩ như Claude Monet hay Auguste Renoir. Nhưng liệu Midjourney, DALL-E và Stable có làm được điều tương tự không? Đây là gợi ý được sử dụng: – một bức tranh theo trường phái ấn tượng về một trận đấu bóng đá.

giữa hành trình

PHIẾN 2 (trang web chính thức)

PHIẾN 2 (Quán cà phê đêm)

DALL-E (Trình tạo hình ảnh Bing)

Mức chênh lệch ổn định 2.1 (trang web chính thức)

Mức chênh lệch ổn định 2.1 (Quán cà phê đêm)

3. Bắt chước phong cách của một nghệ sĩ

Việc bắt chước một xu hướng nghệ thuật cho phép AI mất nhiều thời gian sáng tạo, điều này sẽ chỉ cố gắng sao chép phong cách. Nhưng để cụ thể hơn và có cái nhìn mới mẻ về khả năng tạo hình ảnh của AI, bạn có thể yêu cầu chúng bắt chước phong cách của một nghệ sĩ cụ thể. Đối với ví dụ này, chúng tôi đã chọn Hokusai, người nổi tiếng về tranh in và đặc biệt là Làn sóng lớn ngoài khơi Kanagawa. Đây là lời nhắc được sử dụng: một phong cảnh, phong cách nghệ thuật Hokusai – một phong cảnh theo phong cách Hokusai.

giữa hành trình

PHIẾN 2 (trang web chính thức)

PHIẾN 2 (Quán cà phê đêm)

DALL-E (Trình tạo hình ảnh Bing)

Mức chênh lệch ổn định 2.1 (trang web chính thức)

Mức chênh lệch ổn định 2.1 (Quán cà phê đêm)

4. Tạo chi tiết

AI đang hoạt động như thế nào với việc tạo chi tiết? Họ có khả năng tạo ra những hình ảnh đặc biệt chính xác không? Chúng tôi đã thử nghiệm với râu mèo. Thật vậy, có phải vô số chi tiết được yêu cầu bởi một hình ảnh đại diện cho mõm của một con mèo có phải là một vấn đề đối với AI của chúng ta không? Phản hồi bên dưới, với lời nhắc sau: một bức ảnh phóng to rất chi tiết về râu của một con mèo – một bức ảnh phóng to rất chi tiết về râu của một con mèo.

giữa hành trình

PHIẾN 2 (trang web chính thức)

PHIẾN 2 (Quán cà phê đêm)

DALL-E (Trình tạo hình ảnh Bing)

Mức chênh lệch ổn định 2.1 (trang web chính thức)

Mức chênh lệch ổn định 2.1 (Quán cà phê đêm)

5. Tạo biểu tượng

Chúng ta cần logo nhưng không có nhà thiết kế, liệu AI có thể giúp chúng ta? Các hệ thống tạo hình ảnh này thường gặp khó khăn trong việc tái tạo thành phần văn bản mà chúng tôi sẽ kết hợp với yêu cầu biểu tượng của mình. Đây là lời nhắc của chúng tôi: logo thương hiệu của hãng thu âm có tên “Better Days” – logo của hãng âm nhạc có tên “Better Days”. AI có thể tưởng tượng ra một logo và đưa phần tử văn bản ngắn của chúng ta vào đó không?

giữa hành trình

PHIẾN 2 (trang web chính thức)

PHIẾN 2 (Quán cà phê đêm)

DALL-E (Trình tạo hình ảnh Bing)

Mức chênh lệch ổn định 2.1 (trang web chính thức)

Mức chênh lệch ổn định 2.1 (Quán cà phê đêm)

6. Kiểm tra trí tưởng tượng

Đối với sự so sánh cuối cùng này, chúng tôi muốn kiểm tra tính “tưởng tượng” của AI tạo ra hình ảnh. Trong thực tế, vấn đề là hiểu cách chúng hoạt động và hướng tới những gì kho ngữ liệu được sử dụng để tạo ra mô hình của chúng hướng dẫn chúng, nếu chúng được để trống trường. Chỉ cần yêu cầu họ tạo ra hình ảnh của một thế giới tưởng tượng, hãy xem họ cung cấp cho chúng ta những gì. Lời nhắc: – một thế giới tưởng tượng không có cơ sở chung.

giữa hành trình

PHIẾN 2 (trang web chính thức)

PHIẾN 2 (Quán cà phê đêm)

DALL-E (Trình tạo hình ảnh Bing)

Mức chênh lệch ổn định 2.1 (trang web chính thức)

Mức chênh lệch ổn định 2.1 (Quán cà phê đêm)

Kết quả so sánh giữa Midjourney, DALL-E và Stable Diffusion

Giữa cuộc hành trình phía trên lô đất

Nhờ một vài ví dụ về những lời nhắc rất cơ bản này, chúng ta có thể rút ra một số kết luận về trạng thái tiến bộ và khả năng của từng công cụ được thử nghiệm. Đầu tiên, khá rõ ràng rằng Midjourney có lợi thế dẫn đầu so với các đối thủ cạnh tranh. Đáng chú ý, đây là công cụ duy nhất trong ba công cụ có thể tạo ra hình ảnh chân thực về con người. DALL-E và Stable nằm ở ranh giới của thung lũng kỳ lạ, tạo ra những con người có những khuyết điểm có vẻ quái dị đối với chúng ta. Tuy nhiên, cả ba đều có khả năng tạo ra hình ảnh chân thực: điều này được thấy rõ nhất trong bài tập về râu mèo, trong đó chi tiết khá ấn tượng.

DALL-E đang tìm kiếm tác phẩm nghệ thuật của mình

Về mặt tái tạo hoặc lấy cảm hứng từ một nghệ sĩ hiện có hoặc dòng nghệ thuật hiện tại, Midjourney một lần nữa báo cáo những màn trình diễn thú vị. Công cụ này có khả năng bắt chước một nghệ sĩ hoặc một phong trào, lấy cảm hứng từ nó và cá nhân hóa nó. Điều này có thể thấy rõ qua trải nghiệm của Hokusai: ba hình ảnh được lấy cảm hứng khá trung thực từ tác phẩm của nghệ sĩ bằng cách thêm vào một nét sáng tạo bổ sung và hình ảnh thứ tư gây nhầm lẫn với tác phẩm gốc. Khuếch tán ổn định tuân thủ các hướng dẫn khá tốt, với kết quả không hoàn hảo nhưng có thể được cải thiện bằng cách điều chỉnh lời nhắc. Về phần mình, DALL-E đã bỏ lỡ hoàn toàn hai bài tập, ngoại trừ phiên bản cải tiến có sẵn thông qua Bing Image Creator.

Không có văn bản trong hình ảnh!

Điểm yếu lớn đối với ba AI được thử nghiệm, bất kể chúng hỗ trợ gì: thực sự không có khả năng tái tạo văn bản. Logo của chúng tôi lẽ ra chỉ có hai từ, nhưng không AI nào có thể tái tạo văn bản được yêu cầu và kết hợp nó vào thiết kế. Đối với những thành phần văn bản này, tốt nhất nên sử dụng các công cụ như Canva hoặc Adobe Express. Thiết kế của các logo không có nhiều cảm hứng nhưng, một lần nữa, làm việc theo lời nhắc có thể giúp bạn đạt được mục đích.

Nhưng nguồn cảm hứng của họ đến từ đâu?

Bài tập cuối cùng, để lại một số quyền tự do sáng tạo cho AI của chúng ta, tiết lộ một số điều, đặc biệt là về nguồn gốc cảm hứng của chúng. Các thế giới tưởng tượng do Midjourney, DALL-E và Stable tạo ra không phải đều được xây dựng trên cùng một nền tảng. Midjourney dường như lấy cảm hứng từ giả tưởng, những câu chuyện truyền thống, hoạt hình Nhật Bản pha chút Moebius, trong khi DALL-E thiên về khoa học viễn tưởng và không gian, thậm chí hướng tới một nền văn hóa mạng nhất định. Stable, trong phiên bản thành công của bài tập, phần lớn được lấy cảm hứng từ các bản đồ thời Trung cổ, thường kết hợp giữa địa lý và tưởng tượng.

Chọn phương tiện của bạn sau khi cân nhắc cẩn thận

Một điều khá ngạc nhiên: tùy thuộc vào phương tiện được sử dụng, cùng một công cụ có thể thể hiện những khả năng khác nhau. Chúng tôi đã gặp khó khăn để có được kết quả đáng tin cậy trên trang web chính thức của DALL-E. Mặt khác, phiên bản cải tiến được sử dụng trong Bing Image Creator thuyết phục hơn nhiều, đến mức đôi khi người ta tự hỏi liệu đây có phải là cùng một công cụ hay không. Trong NightCafe, điều quan trọng là phải nghiên cứu các tùy chọn có sẵn. Thật vậy, có thể lựa chọn một phong cách ngược dòng của thế hệ và thậm chí còn tốt hơn nếu làm như vậy! Đừng cố gắng tạo ra một hình ảnh chân thực mà không chọn tùy chọn thích hợp, kết quả có thể đặc biệt đáng thất vọng.

Mục lục