▷ Làn sóng thứ tư trong cơn sốt hình ảnh AI: Google DreamBooth AI

Google DreamBooth AI có mặt ở đây. DALL-E 2Các ứng dụng nghệ thuật AI được phát hành gần đây như Stable Diffusion và Midjourney đã gây bão trên Internet. Bây giờ là lúc để tùy chỉnh kết quả. Nhưng bằng cách nào? Câu trả lời của Đại học Boston và Google đã đưa ra câu trả lời cho câu hỏi và chúng tôi sẽ trình bày chi tiết cho bạn trong bài viết này.

DreamBooth có khả năng nhận biết chủ đề của bức tranh, tách nó ra khỏi bối cảnh ban đầu và sau đó tổng hợp chính xác thành bối cảnh mới mong muốn. Nó cũng có thể được sử dụng với các trình tạo hình ảnh AI hiện có. Đọc tiếp để tìm hiểu thêm về trí tưởng tượng được hỗ trợ bởi AI.

Google DreamBooth AI là gì?

Google đã giới thiệu DreamBooth, một mô hình phổ biến văn bản thành hình ảnh mới. Google DreamBooth AI có thể tạo ra nhiều hình ảnh khác nhau về chủ đề do người dùng chọn trong nhiều điều kiện khác nhau, sử dụng gợi ý văn bản làm hướng dẫn.

Một nhóm nghiên cứu từ Đại học Boston và Google đã tạo ra DreamBooth, một phương pháp mới để xử lý các mô hình chuyển văn bản thành hình ảnh được đào tạo trước. Nhìn chung, ý tưởng khá đơn giản: họ muốn mở rộng từ điển ngôn ngữ-hình ảnh sao cho các id mã thông báo hiếm được liên kết với một chủ đề cụ thể mà người dùng muốn tạo.

Các tính năng chính của Google DreamBooth AI:

3-5 Với nhiếp ảnh, DreamBooth AI có thể phát triển mô hình chuyển văn bản thành hình ảnh.
Sử dụng DreamBooth AI, bạn có thể thu được hình ảnh hoàn toàn nguyên bản, chân thực về đối tượng.
Ngoài ra, DreamBooth AI có thể tạo ra hình ảnh của một chủ thể từ nhiều góc độ khác nhau.

Mục đích chính của mô hình là cung cấp cho người dùng các công cụ cần thiết để tạo ra các hình ảnh thể hiện chân thực về các trường hợp của chủ đề họ đã chọn và liên kết chúng với mô hình khoảng văn bản thành hình ảnh. Tóm lại, phương pháp này có vẻ hiệu quả trong việc tóm tắt các vấn đề trong nhiều tình huống khác nhau.

DreamBooth của Google DALL-E 2, khuếch tán ổn định Và giữa cuộc hành trình Nó áp dụng cách làm việc hơi khác so với các công cụ chuyển văn bản thành hình ảnh khác được phát hành gần đây, chẳng hạn như phần mềm, cho phép người dùng có nhiều quyền kiểm soát hơn đối với hình ảnh chủ đề và sau đó kiểm soát kiểu truyền bá bằng cách sử dụng đầu vào dựa trên văn bản.

DreamBooth cũng có thể hiển thị chủ thể từ nhiều góc camera khác nhau bằng cách chỉ cần nhập một vài bức ảnh. Trí tuệ nhân tạo (AI) có thể dự đoán các thuộc tính của chủ đề và tổng hợp chúng trong điều hướng được hướng dẫn bằng văn bản, ngay cả khi ảnh đầu vào không cung cấp dữ liệu về chủ đề từ các góc nhìn khác nhau.

Mô hình này cũng có thể tổng hợp các bức ảnh để tạo ra các tâm trạng, phụ kiện hoặc thay đổi màu sắc khác bằng cách sử dụng tín hiệu ngôn ngữ. Với những tính năng này, Google DreamBooth AI mang đến cho người dùng nhiều tự do hơn trong việc cá nhân hóa và sáng tạo.

“DreamBooth: Tinh chỉnh các mô hình khuếch tán văn bản thành hình ảnh cho thế hệ hướng đến chủ đề” tuyên bố giới thiệu một chủ đề và cách tiếp cận mới.

Sản xuất theo định hướng chủ đề là một chủ đề mới.

Với một số hình ảnh được hiển thị vội vàng về chủ đề, mục tiêu là tạo ra các hình ảnh thể hiện mới trong nhiều cài đặt khác nhau trong khi vẫn duy trì độ trung thực với các đặc điểm hình ảnh cốt lõi của chủ đề.

Ứng dụng AI của Google DreamBooth

Các ứng dụng Google DreamBooth AI tốt nhất như sau:

Tái ngữ cảnh hóa
biểu diễn nghệ thuật
Thao tác biểu thức
Tổng hợp view mới lạ
sự bổ sung
Sửa đổi thuộc tính

Bạn đã sẵn sàng chia tay PhotoShop chưa? Nataniel Ruiz và chúng ta hãy xem xét kỹ hơn về chúng bằng cách sử dụng các hình ảnh hướng dẫn do nhóm DreamBooth tạo ra.

Tái ngữ cảnh hóa

DreamBooth AI có thể tạo ra các hình ảnh độc đáo cho một ví dụ chủ đề nhất định bằng cách chuyển đổi một câu chứa mã định danh duy nhất và tên lớp thành mô hình được đào tạo. Thay vì thay đổi nền, DreamBooth AI có thể tái tạo chủ thể theo các tư thế, khớp nối và cấu trúc cảnh sáng tạo, chưa từng thấy trước đây. Điều này cho thấy rằng chiến lược của họ mang lại nhiều lợi ích hơn là chỉ đoán hoặc truy xuất thông tin liên quan.

biểu diễn nghệ thuật

Nếu như “[büyük heykeltıraş] theo phong cách của một [V] [sınıf ismi] với “bức tượng”[ünlü ressam] theo phong cách của một [V] [sınıf ismi] Nếu bạn được lựa chọn giữa “hình ảnh”, bạn sẽ chọn cái nào? Các hình ảnh sáng tạo nguyên bản có thể được tạo bằng DreamBooth AI.

Nhiệm vụ này khác với chuyển kiểu, nhiệm vụ này giữ nguyên ý nghĩa của cảnh nguồn trong khi áp dụng kiểu của hình ảnh khác cho hình ảnh gốc. Ngược lại, tùy thuộc vào phong cách sáng tạo, AI có thể tạo ra những thay đổi lớn về bối cảnh với các chi tiết ví dụ về chủ đề và bảo vệ danh tính.

Thao tác biểu thức

Với sự trợ giúp của Google DreamBooth AI, có thể tạo ra những hình ảnh mới với nét mặt khác với hình ảnh gốc.

Tổng hợp view mới lạ

Google DreamBooth AI có thể mô tả chủ đề từ một số góc nhìn độc đáo. Ví dụ: DreamBooth AI có thể tạo ra những hình ảnh mới với đầy đủ các mẫu lông chi tiết một cách đáng tin cậy bằng cách sử dụng nhiều góc máy ảnh khác nhau của cùng một con mèo.

Mặc dù DreamBooth AI chỉ có bốn bức ảnh về con mèo được chụp từ phía trước, nhưng nó có thể tạo ra hình ảnh mà không cần tạo ra những góc nhìn sáng tạo này, ngay cả khi nó chưa bao giờ nhìn thấy cùng một con mèo từ bên cạnh, từ bên dưới hoặc từ trên cao.

sự bổ sung

Khía cạnh hấp dẫn về khả năng trang trí đồ vật của DreamBooth AI bắt nguồn từ mức độ ưu tiên về bố cục mạnh mẽ của mô hình thế hệ. Ví dụ: mô hình “a [V] [class noun] mặc [accessory]’ Được hỏi. Điều này giúp bạn có thể thêm nhiều đồ vật khác nhau vào con chó một cách hấp dẫn.

Sửa đổi thuộc tính

DreamBooth AI có thể thay đổi các thuộc tính của đối tượng. Tính từ chỉ màu sắc có thể được sử dụng trong câu ví dụ “a [renk sıfatı] [V] [sınıf ismi]”. Điều này có thể dẫn đến những ví dụ mới và sinh động về chủ đề này. Có một số yêu cầu nhưng những tính năng này cũng giải thích cách sử dụng DreamBooth AI.

Bạn có đang sử dụng Google DreamBooth AI không?

Kỹ thuật AI của DreamBooth sử dụng một số lượng nhỏ ảnh (thường là một con chó cụ thể) về một chủ đề (ví dụ: một con chó cụ thể). 3-5 image là đủ) và tên lớp liên quan đến nó (ví dụ: “dog”). Sau đó, nó tạo ra một mô hình chuyển văn bản thành hình ảnh được tinh chỉnh và “được cá nhân hóa” đồng thời mã hóa danh tính duy nhất cho chủ đề. Để tổng hợp các chủ đề trong các bối cảnh khác nhau, DreamBooth AI sau đó có thể thêm nhận dạng đặc biệt vào các biểu thức khác nhau trong quá trình suy luận. Với ba đến năm hình ảnh về chủ đề, khoảng thời gian chuyển văn bản thành hình ảnh có thể được điều chỉnh theo hai bước:

Lời nhắc văn bản chứa mã cụ thể và tên của lớp chứa chủ đề đó (ví dụ: “[T] hình ảnh con chó”) sẽ được sử dụng để phát triển mô hình hình ảnh văn bản có độ phân giải thấp. Ngoài ra, nó sử dụng tính năng mất tính năng bảo vệ trước dành riêng cho từng lớp để tận dụng ưu tiên ngữ nghĩa của mô hình so với lớp và khuyến khích nó tạo một tập hợp các phiên bản là thành viên của lớp của chủ thể bằng cách đặt tên lớp vào dấu nhắc văn bản (ví dụ: “hình ảnh một con chó”).
Có thể đạt được độ trung thực cao bằng cách điều chỉnh các thành phần siêu phân giải bằng cách sử dụng các cặp ảnh có độ phân giải thấp và cao trong bộ ảnh đầu vào của chúng tôi.

Dreambooth đầu tiên, hình ảnhmô hình chuyển văn bản thành hình ảnh. Nhưng mẫu và trọng lượng của Imagen không có sẵn. Tuy nhiên, sử dụng một số ví dụ, Dreambooth trên Stable Diffusion cho phép người dùng điều chỉnh mô hình chuyển văn bản thành hình ảnh.

Làm cách nào để sử dụng Google Dreambooth AI trong Khuếch tán ổn định?

Thực hiện theo các bước bên dưới để sử dụng DreamBooth AI trên Khuếch tán ổn định:

Làm theo hướng dẫn cài đặt trong kho lưu trữ Đảo ngược văn bản hoặc kho lưu trữ Khuếch tán ổn định ban đầu để thiết lập môi trường LDM của bạn.
Để tinh chỉnh mô hình, bạn phải có được các mô hình Khuếch tán ổn định được đào tạo trước và làm theo hướng dẫn của chúng. trọng lượng ôm mặtBạn có thể tải về từ.
Chuẩn bị một loạt hình ảnh để chuẩn hóa theo yêu cầu của phương pháp tinh chỉnh của Dreambooth.

Bạn có thể thực hành bằng lệnh sau:

python main.py –base configs/stable-diffusion/v1-finetune_unfrozen.yaml

-t

–actual_resume /path/to/origin/stable-diffusion/sd-v1-4-full-ema.ckpt

-n

–gpus 0,

–data_root /root/to/training/images

–reg_data_root /root/to/regularization/images

–class_word

thế hệ

Sau khi đào tạo, lệnh có thể được sử dụng để lấy mẫu được cá nhân hóa.

tập lệnh python/stable_txt2img.py –ddim_eta 0.0

–n_samples 8

–n_iter 1

–thang điểm 10.0

–ddim_bước 100

–ckpt /path/to/saved/checkpoint/from/training

–prompt “ảnh của sks “

Cụ thể, class là từ class – một từ class chỉ giáo dục – và sks là định danh (nếu muốn thay đổi thì nên thay thế bằng sự lựa chọn của bạn). Để biết thêm thông tin Trang GitHub về Khuếch tán ổn định DreamBooth thăm nom.

Hạn chế của Dreambooth AI

Những hạn chế của DreamBooth AI như sau:

trôi dạt ngôn ngữ
trang bị quá mức
mất mát bảo quản

Hãy xem xét chúng kỹ hơn.

trôi dạt ngôn ngữ

Dấu nhắc lệnh ngăn chặn việc tạo ra các lần lặp lại có độ chi tiết cao về chủ đề. DreamBooth có thể thay đổi bối cảnh của chủ thể, nhưng vấn đề về khung hình có thể phát sinh nếu người mẫu muốn thay đổi chủ thể thực tế.

trang bị quá mức

Một vấn đề khác có thể là hình ảnh quá khớp với hình ảnh gốc. Nếu không đủ ảnh đầu vào, chủ đề có thể không được đánh giá hoặc kết hợp với bối cảnh của ảnh được tải lên. Điều này cũng xảy ra khi yêu cầu ngữ cảnh cho một phiên bản.

mất mát bảo quản

Những hạn chế khác là không có khả năng tổng hợp hình ảnh của các đối tượng hiếm hơn hoặc phức tạp hơn, cũng như độ trung thực của chủ thể có thể thay đổi, có thể gây ra những thay đổi gây ảo giác và chất lượng không liên tục. Bối cảnh đầu vào thường được bao gồm trong chủ đề của hình ảnh đầu vào.

Tác động xã hội của trí tuệ nhân tạo

Mục tiêu của dự án DreamBooth là cung cấp cho người dùng một công cụ thiết thực để tổng hợp các chủ đề cá nhân (động vật, đồ vật) trong nhiều cài đặt khác nhau. Mặc dù các thuật toán chuyển văn bản thành hình ảnh tiêu chuẩn có thể thiên về một số hướng nhất định khi tổng hợp hình ảnh từ các từ, nhưng chúng giúp người dùng tái tạo tốt hơn các chủ đề họ đã chọn. Tuy nhiên, các bên độc hại có thể cố gắng đánh lừa người dùng bằng cách sử dụng các hình ảnh tương tự. Các phương pháp mô hình tổng quát hoặc kỹ thuật thay thế nội dung khác nhau bộc lộ vấn đề chung này.

Phần kết luận

Hầu hết các ứng dụng chuyển văn bản thành hình ảnh đều yêu cầu hàng triệu tham số và thư viện để tạo đầu ra từ một lần nhập văn bản. DreamBooth yêu cầu đầu vào từ ba đến năm hình ảnh chủ đề cùng với nền bằng văn bản, giúp người dùng dễ dàng lấy và sử dụng nội dung.

Do đó, những phẩm chất độc đáo của đối tượng có thể được bảo tồn, trong khi mô hình nâng cao tái sử dụng các khía cạnh duy vật của đối tượng đã học được từ hình ảnh để tái tạo trong các bối cảnh và quan điểm khác. Hầu hết các thuật toán chuyển đổi văn bản thành hình ảnh đều dựa vào các từ khóa cụ thể và có thể ưu tiên các thuộc tính nhất định khi hiển thị hình ảnh. Người dùng DreamBooth có thể nhìn thấy người họ đã chọn trong một bối cảnh hoặc kịch bản độc đáo, mang lại kết quả thực tế. Vì vậy, ngừng chờ đợi. Thử ngay bây giờ!

Chúng tôi hy vọng bạn thích bài viết này về Google DreamBooth AI. Nếu bạn thích nó, Cơn sốt hình ảnh AI: DALL-E 2, Làn sóng thứ hai trong cơn sốt hình ảnh AI: AI giữa hành trình Và Làn sóng thứ ba trong cơn sốt thị giác AI: Khuếch tán ổn định Bạn cũng có thể muốn xem qua các bài viết của chúng tôi.

Mục lục

Làn sóng thứ tư trong cơn sốt hình ảnh AI: Google DreamBooth AI