▷ Visual ChatGPT mang khả năng tạo hình ảnh AI vào chatbot phổ biến

Microsoft tiếp tục cuộc đua AI mà không hề giảm tốc độ với Visual ChatGPT. Visual ChatGPT là mô hình mới kết hợp ChatGPT và VFM, bao gồm Transformers, ControlNet và Stable Diffusion. Âm thanh tốt? Kỹ thuật này cũng giúp các cuộc trò chuyện ChatGPT có thể vượt qua rào cản ngôn ngữ. Như GPT-4 ngày phát hành đang đến gần, tương lai của ChatGPT đang ngày càng tươi sáng hơn.

Mặc dù có rất nhiều trình tạo hình ảnh AI thành công, như DALL-E 2, Wombo Dream, v.v., một công cụ nghệ thuật AI mới được phát triển luôn nhận được sự chào đón nồng nhiệt từ cộng đồng. Liệu Visual ChatGPT có tiếp tục truyền thống này? Chúng ta hãy xem xét kỹ hơn.

Trò chuyện trực quanGPT là gì?

Visual ChatGPT là mô hình mới kết hợp ChatGPT với các VFM như Transformers, ControlNet và Stable Diffusion. Về bản chất, mô hình AI đóng vai trò là cầu nối giữa người dùng, cho phép họ giao tiếp qua trò chuyện và tạo ra hình ảnh.

ChatGPT hiện bị giới hạn ở việc viết mô tả để sử dụng với Stable Diffusion, DALL-E hoặc Midjourney; nó không thể tự xử lý hoặc tạo ra hình ảnh. Tuy nhiên, với mô hình Visual ChatGPT, hệ thống có thể tạo hình ảnh, sửa đổi nó, cắt bỏ các phần tử không mong muốn và làm được nhiều việc hơn thế.

ChatGPT đã thu hút sự quan tâm liên ngành nhờ năng lực đàm thoại vượt trội và khả năng suy luận trên nhiều lĩnh vực, dẫn đến sự lựa chọn tuyệt vời cho giao diện ngôn ngữ.

Tuy nhiên, việc đào tạo ngôn ngữ cấm nó xử lý hoặc tạo ra hình ảnh từ môi trường thị giác. Trong khi đó, các mô hình có nền tảng trực quan, chẳng hạn như Visual Transformers hoặc Steady Diffusion, thể hiện khả năng hiểu và tạo hình ảnh ấn tượng khi được giao nhiệm vụ với đầu vào và đầu ra cố định một vòng. Một mô hình mới, như Visual ChatGPT, có thể được tạo bằng cách kết hợp hai mô hình này.

Nó cho phép người dùng giao tiếp với ChatGPT theo những cách không thể diễn tả bằng lời nói.

Mô hình nền tảng trực quan (VFM) là gì?

Cụm từ “mô hình nền tảng trực quan” (VFM) thường được sử dụng để mô tả một nhóm thuật toán cơ bản được sử dụng trong thị giác máy tính. Những phương pháp này được sử dụng để chuyển các kỹ năng thị giác máy tính tiêu chuẩn sang các ứng dụng AI và có thể làm cơ sở cho các mô hình phức tạp hơn.

Học cách sử dụng AI là yếu tố thay đổi cuộc chơi

Tính năng trò chuyện trực quanGPT

Các nhà nghiên cứu tại Microsoft đã phát triển một hệ thống có tên Visual ChatGPT có nhiều mô hình nền tảng trực quan và giao diện người dùng đồ họa để tương tác với ChatGPT.

Điều gì sẽ thay đổi với Visual ChatGPT? Nó sẽ có khả năng như sau:

Ngoài văn bản, Visual ChatGPT cũng có thể tạo và nhận hình ảnh.
Các yêu cầu trực quan phức tạp hoặc hướng dẫn chỉnh sửa yêu cầu sự cộng tác của các mô hình AI khác nhau trên nhiều giai đoạn có thể được xử lý bằng Visual ChatGPT.
Để xử lý các mô hình có nhiều đầu vào/đầu ra và những mô hình yêu cầu phản hồi trực quan, các nhà nghiên cứu đã phát triển một loạt lời nhắc tích hợp thông tin mô hình trực quan vào ChatGPT. Thông qua thử nghiệm, họ phát hiện ra rằng Visual ChatGPT tạo điều kiện thuận lợi cho việc điều tra các khả năng trực quan của ChatGPT bằng cách sử dụng các mô hình nền tảng trực quan.

Nó vẫn chưa hoàn hảo. Các nhà nghiên cứu đã quan sát thấy một số vấn đề nhất định trong công việc của họ, chẳng hạn như kết quả tạo ra không nhất quán do sự thất bại của các mô hình nền tảng trực quan (VFM) và sự đa dạng của các gợi ý. Họ đi đến kết luận rằng cần có một mô-đun tự sửa lỗi để đảm bảo rằng kết quả thực hiện phù hợp với mục tiêu của con người và thực hiện bất kỳ chỉnh sửa cần thiết nào. Do nhu cầu điều chỉnh hướng đi liên tục, việc bao gồm một mô-đun như vậy có thể kéo dài thời gian suy luận của mô hình. Nhóm nghiên cứu dự định tiến hành nghiên cứu sâu hơn về vấn đề này trong một nghiên cứu tiếp theo.

Kiểm tra cách sử dụng GPT-4 và tìm hiểu các tính năng mới của ChatGPT

Làm cách nào để sử dụng Trò chuyện trực quanGPT?

Trước tiên, bạn cần chạy bản demo Visual ChatGPT. Theo nó trang GitHubđây là những gì bạn cần làm:

# create a new environment
conda create -n visgpt python=3.8

# activate the new environment
conda activate visgpt

#  prepare the basic environments
pip install -r requirement.txt

# download the visual foundation models
bash download.sh

# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}

# create a folder to save images
mkdir ./image

# Start Visual ChatGPT !
python visual_chatgpt.py

Sau khi bản demo Visual ChatGPT bắt đầu chạy trên PC của bạn, tất cả những gì bạn cần làm là đưa ra lời nhắc!

Với việc sử dụng các công cụ như Visual ChatGPT, quá trình học tập của các mô hình chuyển văn bản thành hình ảnh có thể được giảm bớt và các chương trình AI khác nhau có thể giao tiếp với nhau. Các mô hình tiên tiến trước đây, chẳng hạn như mô hình LLM và T2I, được phát triển riêng biệt; nhưng, với sự trợ giúp của những đổi mới, chúng ta có thể cải thiện đáng kể hiệu suất của chúng.

Khi nói đến việc tạo hình ảnh bằng ChatGPT, GPT-4 ngay lập tức xuất hiện trong tâm trí. Vậy khi nào mẫu xe rất được mong đợi này sẽ được ra mắt?

GPT-4 ngày phát hành

Một mô hình trí tuệ nhân tạo mới mang tên GPT-4 theo giám đốc công nghệ (CTO) của Microsoft Đức, sắp được phát hành bởi OpenAI, công ty đứng sau ChatGPT, vào đầu tuần tới. Phiên bản mới này được nhiều người coi là có khả năng cao hơn rất nhiều so với phiên bản tiền nhiệm, điều này sẽ mở đường cho việc áp dụng rộng rãi AI sáng tạo trong kinh doanh.

Kể từ năm 2019, khi đầu tư $1 tỷ USD trong OpenAI, Microsoft đã là đối tác quan trọng của công ty khởi nghiệp AI. Microsoft đã tăng thị phần của mình trong phòng thí nghiệm AI lên vài tỷ đô la vào tháng 1, sau thành công đáng chú ý của ChatGPT, một chatbot được hỗ trợ bởi AI đã gây bão trên Internet trong những tháng gần đây.

Trò chuyện trực quanGPT GPU sử dụng bộ nhớ

Visual ChatGPT cũng chia sẻ danh sách mức sử dụng bộ nhớ GPU của từng mô hình nền tảng trực quan.

Cách sử dụng bộ nhớ mô hình nền tảng (MB)

Chỉnh sửa hình ảnh	6667
Chú thích hình ảnh	1755
T2I	6677
canny2image	5540
dòng2image	6679
hed2image	6679
scribble2image	6679
tư thế2image	6681
BLIPVQA	2709
seg2image	5540
chiều sâu2image	6677
bình thường2image	3974
Hướng dẫnPix2Pix	2795

Để tiết kiệm bộ nhớ GPU, bạn có thể sửa đổi “self.tools” với ít mô hình nền tảng trực quan hơn.

Kiểm tra giấy để biết thêm thông tin chi tiết.

AI 101

Bạn là người mới làm quen với AI? Bạn vẫn có thể lên tàu AI! Chúng tôi đã tạo một bảng chú giải chi tiết về AI cho các thuật ngữ trí tuệ nhân tạo được sử dụng phổ biến nhất và giải thích những kiến thức cơ bản về trí tuệ nhân tạo cũng như những rủi ro và lợi ích của AI. Hãy thoải mái sử dụng chúng.

Các công cụ AI khác mà chúng tôi đã xem xét

Hầu như mỗi ngày, một công cụ, mô hình hoặc tính năng mới xuất hiện và thay đổi cuộc sống của chúng ta và chúng tôi đã xem xét một số công cụ, mô hình hoặc tính năng tốt nhất:

Bạn có muốn tìm hiểu cách sử dụng ChatGPT hiệu quả? Chúng tôi có một số mẹo và thủ thuật dành cho bạn mà không cần chuyển sang ChatGPT Plus! Kỹ thuật nhắc nhở AI là chìa khóa dẫn đến thế giới vô tận, nhưng bạn nên cẩn thận; Khi muốn sử dụng công cụ AI, bạn có thể gặp các lỗi như “ChatGPT hiện đang hoạt động hết công suất” và “quá nhiều yêu cầu trong 1-giờ thử lại sau”. Vâng, đó thực sự là những lỗi khó chịu, nhưng đừng lo lắng; chúng tôi biết cách khắc phục chúng.

Trong khi vẫn còn một số tranh luận về hình ảnh do trí tuệ nhân tạo tạo ra, mọi người vẫn đang tìm kiếm những công cụ tạo nghệ thuật AI tốt nhất. AI sẽ thay thế các nhà thiết kế? Hãy tiếp tục đọc và tìm hiểu.

Mục lục

Visual ChatGPT mang khả năng tạo hình ảnh AI vào chatbot phổ biến