Tin tức và phân tích của tất cả các thiết bị di động

DALL-E và Midjourney: sự khác biệt giữa hai trình tạo hình ảnh là gì?

DALL-E và Midjourney là hai công cụ hàng đầu để tạo ra hình ảnh bằng trí tuệ nhân tạo, ngay cả khi chúng không phải là những công cụ duy nhất. Phiên bản đầu tiên do OpenAI phát triển, xuất hiện vào tháng 1 năm 2021 với phiên bản đầu tiên, trong khi Midjourney, từ một “phòng thí nghiệm nghiên cứu độc lập”, được ra mắt trên phiên bản V1 vào tháng 1 năm 2022. Nhưng điều gì làm nên sự khác biệt giữa hai công cụ này? Họ làm việc như thế nào? Giá của chúng là bao nhiêu? Trong bài viết này, chúng tôi đã cố gắng so sánh hai AI này, nhưng việc này không hẳn dễ dàng vì khả năng của chúng dường như ở các giai đoạn phát triển khác nhau.

Ai sở hữu DALL-E và Midjourney?

PHIẾN

DALL-E là trình tạo hình ảnh AI của OpenAI, nhà xuất bản ChatGPT, văn bản của nó bị uốn cong. Phiên bản đầu tiên của nó đã được tiết lộ vào ngày 5 Tháng 1 năm 2021. Tuy nhiên, chỉ hơn một năm sau, vào tháng 4 năm 2022, OpenAI công bố DALL-E 2được mô tả như một mô hình “người có thể tạo ra những hình ảnh và tác phẩm nghệ thuật nguyên bản, chân thực từ mô tả bằng văn bản. Nó có thể kết hợp các khái niệm, thuộc tính và phong cách”.

Chúng tôi hy vọng rằng DALL-E 2 cho phép mọi người thể hiện sự sáng tạo của mình. PHIẾN 2 cũng giúp chúng tôi hiểu cách các hệ thống AI tiên tiến nhìn và hiểu thế giới của chúng ta, đây là trọng tâm trong sứ mệnh tạo ra AI mang lại lợi ích cho nhân loại.

giữa hành trình

Midjourney mô tả chính nó là “một phòng thí nghiệm nghiên cứu độc lập khám phá những phương tiện tư duy mới và phát triển sức mạnh tưởng tượng của loài người”. Midjourney Inc. được thành lập vào tháng 7 năm 2022 tại San Francisco bởi David Holz, Giám đốc điều hành của nó, vài ngày trước khi phát hành V3 của Generative AI. Vốn là đồng sáng lập của Leap Motion, David Holz đang nghiên cứu về điều khiển cử chỉ và các thiết bị thực tế tăng cường trước khi ra mắt Midjourney. Vào tháng 3 năm 2023, phiên bản 5 đã được cung cấp ở dạng alpha. “Chúng tôi là một nhóm nhỏ, tự tài trợ, tập trung vào thiết kế, cơ sở hạ tầng con người và AI. Chúng tôi có 11 nhân viên làm việc toàn thời gian và một đội ngũ cố vấn đáng kinh ngạc”chúng ta có thể đọc trên Trang web giữa hành trình.

Mục tiêu là làm cho con người giàu trí tưởng tượng hơn chứ không phải tạo ra những cỗ máy giàu trí tưởng tượng, điều mà tôi nghĩ là một điểm khác biệt quan trọng, David Holz giải thích với Forbes.

Bạn truy cập DALL-E và Midjourney ở đâu và bằng cách nào?

PHIẾN

PHIẾN 2 có sẵn cho tất cả mọi người ở phiên bản beta kể từ tháng 7 năm 2022. Mọi thứ được thực hiện từ trình duyệt web của bạn, tại Địa chỉ này. Để đăng nhập, bạn cần có tài khoản OpenAI, tài khoản này có thể giống tài khoản bạn đã sử dụng cho ChatGPT. Sau khi nhập số nhận dạng của mình, bạn có thể viết lời nhắc vào hộp trò chuyện được cung cấp cho mục đích này. Hình ảnh của bạn sẽ được tạo ra ngay lập tức.

giữa hành trình

Để sử dụng Midjourney, bạn phải tham gia máy chủ Discord chuyên dụng. Do đó, bạn phải có tài khoản trên nền tảng trước khi bắt đầu. Tham gia máy chủ Midjourney, sau đó là một trong những phòng chờ được gọi là “người mới” dành cho người mới và người dùng không thường xuyên. Cài đặt nâng cao sẽ cho phép bạn chọn theo mặc định phiên bản Midjourney bạn muốn sử dụng, chất lượng hiển thị, quyền tự do dành cho AI, v.v. Để tạo một hình ảnh, cũng cần phải thông qua dấu nhắc, được giới thiệu bằng lệnh /được hình thành. Hướng dẫn của chúng tôi sẽ cho bạn biết mọi thứ về cách tham gia và sử dụng Midjourney.

Tình trạng phát triển của DALL-E và Midjourney như thế nào?

PHIẾN

PHIẾN 2giống như tất cả các mô hình AI, đang được phát triển không ngừng. “Học từ việc sử dụng trong thế giới thực là một phần quan trọng trong quá trình phát triển và triển khai AI có trách nhiệm. Chúng tôi bắt đầu bằng cách cung cấp DALL-E 2 ở dạng xem trước cho một số lượng hạn chế người dùng đáng tin cậy. Khi chúng tôi tìm hiểu thêm về các khả năng và hạn chế của công nghệ cũng như tin tưởng vào hệ thống bảo mật của mình, chúng tôi dần dần thêm nhiều người dùng hơn và cung cấp DALL-E ở phiên bản beta vào tháng 7 năm 2022.” Ba tháng sau, OpenAI cung cấp API DALL-E ở phiên bản beta công khai, mời tất cả các nhà phát triển sử dụng nó để ” tạo ứng dụng ».

giữa hành trình

Kể từ phiên bản đầu tiên vào tháng 2 năm 2022, Midjourney đã có nhiều bản cập nhật trong thời gian rất ngắn. Hôm nay chi nhánh mới nhất là Midjourney 5nhưng là một phiên bản 5.1 đã có sẵn. Nhóm thực sự rất thường xuyên bổ sung các chức năng mới vào công cụ của mình, đồng thời làm việc trên các phiên bản hiệu quả hơn bao giờ hết. Từ hai đến bốn tháng, các phiên bản khác nhau của Midjourney đã được tách ra, điều này khiến cố vấn Alie Jules nói, người nói rằng cô ấy đã nhận được dấu hiệu từ David Holz rằng v6 có thể đến vào tháng Bảy.

Nhưng vẫn theo cô, số ưu tiên 1 của Midjourney vẫn là việc thiết lập một trang web độc lập và trang web dành cho thiết bị di động, có khả năng không cần phải thông qua Discord nữa. Đồng thời, Midjourney đang phát triển v5.2có thể bao gồm chức năng “sơn lại”, cho phép mở rộng hình ảnh để tích hợp chủ đề của nó vào một bố cục lớn hơn, như DALL-E hoặc Firefly đã cung cấp trên Photoshop.

Các mô hình DALL-E và Midjourney được đào tạo như thế nào?

PHIẾN

PHIẾN 2 đã được đào tạo trên khoảng 650 triệu cặp văn bản-hình ảnh được lấy từ internet, OpenAI giải thích trong một ấn phẩm khoa học. Bộ dữ liệu này đã dạy cho anh mối quan hệ giữa hình ảnh và các từ dùng để mô tả chúng. Tính năng lọc đã được áp dụng ở thượng nguồn để đảm bảo rằng kho dữ liệu không chứa nội dung bạo lực, tình dục hoặc thù hận rõ ràng. “Mô hình không tiếp xúc với những khái niệm này, vì vậy khả năng nó tạo ra những thứ mà nó chưa từng thấy là rất rất thấp”Mark Chen của OpenAI làm rõ.

Sau khi mô hình “bộ mã hóa” này được đào tạo để hiểu các mối quan hệ giữa hình ảnh và văn bản, OpenAI đã ghép nối nó với một “bộ giải mã” tạo ra hình ảnh từ lời nhắc văn bản, sử dụng quy trình gọi là phát trực tuyến. Điều này bắt đầu thế hệ của nó với một mẫu chấm ngẫu nhiên, nó từ từ sửa đổi để tạo thành hình ảnh. Một lần nữa, các bộ lọc được áp dụng để tránh nội dung bị cấm. PHIẾN 2 Tương tự như vậy, không thể tái tạo giống hệt những khuôn mặt mà anh ấy đã nhìn thấy trong quá trình luyện tập để tránh bị deepfake.

giữa hành trình

Theo người sáng lập David Holz, chương trình đào tạo Midjourney dựa trên sự tổng hợp của nội dung web. “Chúng tôi sử dụng các tập dữ liệu mở đã được xuất bản và đào tạo mô hình thông qua chúng”, anh ấy giải thích với Forbes. Trong cuộc phỏng vấn này, nhận xét của ông cũng gây ra nhiều tranh cãi. David Holz thừa nhận rằng hàng trăm triệu hình ảnh được sử dụng không phải là đối tượng yêu cầu sự đồng ý của các nghệ sĩ hoặc tác giả. “Thực sự không có cách nào để có được hàng trăm triệu hình ảnh và biết chúng đến từ đâu”cố gắng biện minh cho CEO của Midjourney.

AI tổng quát này dựa trên DALL-E, trên mô hình phổ biến. Hoạt động theo mã độc quyền và không phải là nguồn mở, Midjourney giữ bí mật rất tốt, nhưng có thể hiểu cách tiến hành của nó. Lời nhắc được chuyển đổi thành một vectơ là phiên bản số của lời nhắc. Quá trình này là một loại đảo ngược tiếng ồn. Nói cách khác, khi bạn nhập một truy vấn, AI sẽ bắt đầu công việc của nó với trường nhiễu hình ảnh. Khuếch tán tiềm ẩn sẽ loại bỏ nhiễu theo từng giai đoạn trước khi hiển thị hình ảnh cụ thể và tinh tế. Đây là lý do tại sao quá trình tạo mất vài chục giây và nếu bạn dừng quá trình trước khi quá trình này kết thúc, hình ảnh của bạn sẽ không thực sự “hoàn thành” và có nguy cơ bị mờ hoặc trừu tượng.

Sự khác biệt về kết xuất giữa DALL-E và Midjourney là gì?

Để thử nghiệm DALL-E 2 và Midjourney v5, chúng tôi đã viết hai lời nhắc mà chúng tôi sao chép và dán mỗi lần trong hai công cụ. Với cùng một truy vấn, hai AI tổng hợp này mang lại kết quả gì? Chúng tôi đã thực hiện thử nghiệm nhưng hãy nhớ rằng hai công cụ này đang ở các giai đoạn đào tạo và phát triển khác nhau, vì vậy sự so sánh này thực sự không phải là một. Tuy nhiên, nó cho phép có ý tưởng về năng lực của hai IA này.

Lời nhắc đầu tiên: tạo ra một hình ảnh thực tế

Yêu cầu đầu tiên của chúng tôi chủ yếu dựa trên chủ nghĩa hiện thực. Chúng tôi đã viết lời nhắc sau: hoặc bằng tiếng Pháp “một con đường mòn đi bộ đường dài trong rừng lúc mặt trời mọc với những chú nai, chế độ xem cực kỳ chân thực, cực kỳ chi tiết, ở chất lượng 4K”. Dưới đây là kết quả cho DALL-E:

Đây là kết quả của Midjourney:

Nhờ ví dụ đầu tiên này, sự dẫn đầu của Midjourney so với DALL-E được thể hiện rõ ở các điểm như tính chân thực và chi tiết. Chúng tôi lưu ý rằng DALL-E dường như gặp khó khăn trong việc tạo ra những chú hươu có nhiều điểm không hoàn hảo một cách chính xác. Chủ nghĩa hiện thực, đặc biệt là từ quan điểm nhiếp ảnh và ánh sáng, cũng tiến bộ hơn trong Midjourney. Tuy nhiên, điều quan trọng cần lưu ý là Bing Image Creator, dựa trên phiên bản nâng cao của DALL-E, dường như mang lại kết quả thuyết phục hơn. AI tạo hình ảnh của OpenAI có một số tính năng vượt trội! Đây là một ví dụ được tạo bằng phiên bản DALL-E được Bing Image Creator sử dụng:

Lời nhắc thứ 2: tạo hình ảnh cách điệu

Thứ hai, chúng tôi đã viết lời nhắc yêu cầu một hình ảnh theo một phong cách cụ thể, nghệ thuật pixel. Chúng tôi đã thêm một độ chính xác nhỏ: nghệ thuật pixel này càng giống với những gì đã được thực hiện tại thời điểm bảng điều khiển 16-bit (như Super Nintendo hoặc Mega Drive) đến mức có thể. Đây là lời nhắc của chúng tôi: , hoặc bằng tiếng Pháp “các thành viên của nhóm hip hop đang tạo dáng trên đường phố, theo phong cách nghệ thuật pixel 16 bit”. Kết quả cho DALL-E như sau:

Đây là kết quả của Midjourney:

Ở đây, chúng tôi nhận thấy rằng hướng dẫn có lẽ ít được tôn trọng từ phía DALL-E, vốn tạo ra hình ảnh theo phong cách gần với 8 bit hơn 16. AI của OpenAI cũng kém sáng tạo hơn Midjourney, vốn tính đến hướng dẫn “trên đường phố” tốt hơn so với đối thủ cạnh tranh.

Mức giá được cung cấp bởi DALL-E và Midjourney là bao nhiêu?

PHIẾN

Tạo hình ảnh với DALL-E 2 trải qua việc mua tín dụng. Mỗi lời nhắc được nhập có giá một tín chỉ. Ưu đãi do OpenAI đưa ra là 15 USD cho 115 tín dụng và giá không giảm. Do đó, bạn nên suy nghĩ cẩn thận về lời nhắc được sử dụng, vì hãy nghĩ rằng bạn chắc chắn sẽ cần thử vài lần và do đó cần nhiều lời nhắc trước khi có được hình ảnh mong muốn.

giữa hành trình

Midjourney cung cấp một số gói giá không bao gồm số lượng tín dụng cụ thể cho thế hệ như DALL-E. Tại đây, gói cơ bản có giá 10 USD (12 USD có VAT) mỗi tháng và cho phép bạn tạo khoảng 200 bản dựng hình ảnh. Gói trung gian ($30/tháng, $36 có VAT) và gói chuyên nghiệp ($60/tháng, $72 có VAT) cung cấp “giờ xây dựng nhanh”, 15 cho gói đầu tiên và 30 cho gói thứ hai. Theo Midjourney, một giờ tạo nhanh cho phép tạo ra 60 hình ảnh “gốc” hoặc 200 biến thể hình ảnh.