▷ DreamBooth của Google mang đến sự cá nhân hóa cho nghệ thuật AI

Google DreamBooth AI đang ở trong nhà. Internet hiện đang bị tấn công bởi các công nghệ mới được phát hành như DALL.E2 của OpenAI hoặc Stable Diffusion và Midjourney của StabilityAI. Bây giờ là lúc cá nhân hóa kết quả đầu ra. Nhưng bằng cách nào? Google và Đại học Boston đã trả lời và chúng tôi đã giải thích điều đó cho bạn.

DreamBooth có khả năng hiểu chủ đề của một hình ảnh nhất định, tách nó khỏi bối cảnh hiện có của hình ảnh và sau đó tổng hợp chính xác nó thành bối cảnh mới mong muốn. Ngoài ra, nó có thể hoạt động với các trình tạo hình ảnh AI hiện có. Hãy tiếp tục đọc và tìm hiểu thêm về trí tưởng tượng được hỗ trợ bởi AI.

DreamBooth AI của Google là gì?

DreamBooth, mô hình phổ biến văn bản thành hình ảnh mới của Google, đã được giới thiệu. Sử dụng lời nhắc bằng văn bản làm hướng dẫn, DreamBooth AI có thể tạo ra nhiều loại ảnh về chủ đề đã chọn của người dùng trong nhiều cài đặt khác nhau.

Một nhóm các nhà nghiên cứu từ Google và Đại học Boston đã phát triển DreamBooth, dựa trên một kỹ thuật mới để tùy chỉnh các mô hình chuyển văn bản thành hình ảnh được đào tạo trước trên quy mô lớn. Khái niệm tổng thể khá đơn giản: họ muốn tăng từ điển tầm nhìn ngôn ngữ sao cho các ID mã thông báo không phổ biến được liên kết với một chủ đề cụ thể mà người dùng muốn tạo.

Các tính năng chính của DreamBooth AI:

DreamBooth AI có thể cải thiện mô hình chuyển văn bản thành hình ảnh bằng 3–5 những bức ảnh.
Có thể tạo ra những bức ảnh chân thực hoàn toàn độc đáo về đối tượng bằng DreamBooth AI.
DreamBooth AI cũng có thể tạo ra hình ảnh của một đối tượng từ nhiều góc nhìn.

Mục tiêu chính của mô hình là cho phép người dùng tạo ra các biểu diễn quang học thực tế của các trường hợp chủ đề đã chọn của họ và kết nối chúng với mô hình khuếch tán văn bản thành hình ảnh. Kết quả là kỹ thuật này tỏ ra hữu ích trong việc tổng hợp các chủ đề trong nhiều ngữ cảnh.

Trôi ngôn ngữ là một trong những hạn chế của DreamBooth AI

So với các công cụ chuyển văn bản thành hình ảnh khác mới ra mắt gần đây như DALL-E 2Khuếch tán ổn định và Midjourney, DreamBooth của Google áp dụng một chiến lược hơi khác bằng cách cung cấp cho người dùng nhiều quyền kiểm soát hơn đối với hình ảnh chủ đề và sau đó định hướng mô hình khuếch tán bằng cách sử dụng dữ liệu đầu vào dựa trên văn bản.

Chỉ với một vài bức ảnh đầu vào, DreamBooth cũng có thể khắc họa đối tượng từ nhiều góc độ máy ảnh. Ngay cả khi ảnh đầu vào không cung cấp dữ liệu về đối tượng từ nhiều góc độ khác nhau, trí tuệ nhân tạo (AI) vẫn có thể dự đoán các đặc điểm của đối tượng và tổng hợp chúng trong điều hướng được hướng dẫn bằng văn bản.

Với sự hỗ trợ của lời nhắc bằng văn bản, mô hình này cũng có thể tổng hợp các bức ảnh để tạo ra những cảm xúc, phụ kiện hoặc thay đổi màu sắc khác. DreamBooth Google AI mang đến cho người dùng nhiều quyền tự do sáng tạo và tùy chỉnh hơn nữa với các tính năng này.

Thủ tục thanh toán Facebooktrình tạo AI chuyển văn bản thành video của: Meta AI tạo video

Giấy DreamBooth

Theo Giấy DreamBoothhọ đưa ra một vấn đề và kỹ thuật mới:

Thế hệ hướng tới chủ đề là một vấn đề mới.

Mục tiêu là tổng hợp các hình ảnh thể hiện mới mẻ về một chủ đề trong nhiều trường hợp khác nhau trong khi vẫn duy trì độ trung thực cao đối với các đặc điểm hình ảnh thiết yếu của nó, dựa trên một số bức ảnh được chụp vội về chủ đề đó.

Ứng dụng AI của DreamBooth

Đây là những ứng dụng DreamBooth AI tốt nhất:

Tái ngữ cảnh hóa
Biểu diễn nghệ thuật
Thao tác biểu thức
Tổng hợp view mới lạ
Phụ kiện hóa
Sửa đổi thuộc tính

Bạn đã sẵn sàng nói lời tạm biệt với PhotoShop chưa? Chúng ta hãy xem xét kỹ hơn về chúng với những hình ảnh đầy thông tin từ Nataniel Ruiz Và Đội ngũ DreamBooth.

Tái ngữ cảnh hóa

DreamBooth AI có thể tạo ra hình ảnh gốc cho một phiên bản chủ đề cụ thể bằng cách cung cấp cho mô hình được đào tạo một câu chứa mã định danh duy nhất và danh từ lớp.

DreamBooth AI có thể tạo chủ thể ở các vị trí và khớp nối mới cũng như với cấu trúc cảnh mới lạ, chưa được quan sát trước đây thay vì thay đổi nền. Sự tương tác thực tế của chủ thể với các vật thể khác, cũng như bóng và phản chiếu thực tế. Điều này chứng tỏ rằng phương pháp của họ cung cấp nhiều thứ hơn là chỉ nội suy hoặc khôi phục các chi tiết liên quan.

Biểu diễn nghệ thuật

Được lựa chọn giữa “một bức tượng của một [V] [class noun] theo phong cách của [great sculptor]” hoặc “bức tranh của một [V] [class noun] theo phong cách của [renowned painter],”Có thể tạo ra các kết xuất sáng tạo gốc bằng cách sử dụng DreamBooth AI.

Đặc biệt, nhiệm vụ này khác với việc chuyển kiểu, trong đó ngữ nghĩa của cảnh nguồn được duy trì và kiểu của một hình ảnh khác được áp dụng cho cảnh gốc. Ngược lại, AI có thể thu được những thay đổi đáng kể trong cảnh, với các chi tiết về đối tượng và khả năng lưu giữ danh tính, tùy thuộc vào phong cách nghệ thuật.

Thao tác biểu thức

Kỹ thuật được DreamBooth AI sử dụng cho phép tạo ra các bức ảnh cập nhật về đối tượng với nét mặt đã thay đổi không có trong bộ sưu tập hình ảnh đầu tiên của đối tượng.

Tổng hợp view mới lạ

DreamBooth AI có thể khắc họa đối tượng từ nhiều góc độ sáng tạo khác nhau. Ví dụ: DreamBooth AI có thể tạo ra những bức ảnh mới về cùng một con mèo, hoàn chỉnh với các mẫu lông phức tạp nhất quán, sử dụng các góc máy ảnh khác nhau.

DreamBooth AI, mặc dù mô hình chỉ có bốn bức ảnh chính diện của con mèo, nhưng có thể suy luận kiến thức từ lớp học trước khi tạo ra những góc nhìn đổi mới này mặc dù chưa bao giờ nhìn thấy con mèo đặc biệt này từ bên cạnh, từ bên dưới hoặc bên trên.

Phụ kiện hóa

Khả năng trang trí đối tượng của DreamBooth AI là một đặc tính hấp dẫn nhờ vào cấu trúc mạnh mẽ trước đó của mô hình thế hệ.

Ví dụ: một câu lệnh thuộc loại “a [V] [class noun] mặc [accessory]” được sử dụng để nhắc nhở mô hình. Điều này cho phép chúng ta gắn nhiều vật dụng khác nhau vào con chó với kết quả đẹp mắt về mặt thẩm mỹ.

Sửa đổi thuộc tính

Các đặc điểm của đối tượng có thể được sửa đổi bởi DreamBooth AI.

Ví dụ: cụm từ gợi ý “a [color adjective] [V] [class noun]” có thể bao gồm một tính từ màu sắc. Làm như vậy có thể tạo ra những ví dụ hoàn toàn mới, đầy màu sắc về chủ đề này.

Các tính năng này cũng mô tả cách sử dụng DreamBooth AI, mặc dù có một số yêu cầu.

Làm cách nào để sử dụng DreamBooth AI?

Phương thức được DreamBooth AI sử dụng chấp nhận làm đầu vào một số lượng hình ảnh hạn chế (thường là 3-5 hình ảnh là đủ) về một chủ đề (ví dụ: một con chó cụ thể) và tên lớp liên quan đến nó (ví dụ: “con chó”). Sau đó, nó xuất ra một mô hình chuyển văn bản thành hình ảnh được tinh chỉnh/”được cá nhân hóa” để mã hóa một mã định danh cụ thể đề cập đến chủ đề. Sau đó, mã nhận dạng duy nhất có thể được DreamBooth AI chèn vào khi suy luận vào các câu khác nhau để tổng hợp các chủ đề trong nhiều trường hợp khác nhau.

Trong hai bước, bạn có thể tinh chỉnh việc truyền bá văn bản thành hình ảnh từ ba đến năm bức ảnh về một chủ đề:

Hoàn thiện mô hình chuyển văn bản thành hình ảnh có độ phân giải thấp bằng cách sử dụng ảnh đầu vào và lời nhắc văn bản có mã đặc biệt và tên của lớp mà chủ đề thuộc về (ví dụ: “hình ảnh của một [T] răng nanh Song song với điều này, họ áp dụng tổn thất bảo toàn trước dành riêng cho từng lớp, lợi dụng ngữ nghĩa ưu tiên của mô hình trên lớp và thúc đẩy nó tạo ra nhiều ví dụ khác nhau thuộc về lớp của chủ đề bằng cách đưa tên lớp vào dấu nhắc văn bản (ví dụ: “hình ảnh một con chó”.
Việc sử dụng ghép các ảnh có độ phân giải thấp và độ phân giải cao từ bộ ảnh đầu vào của chúng tôi để tinh chỉnh các thành phần có độ phân giải siêu cao cho phép chúng tôi duy trì độ trung thực cao.

Dựa trên Hình ảnhmô hình chuyển văn bản thành hình ảnh của Dreambooth ban đầu đã được tạo. Tuy nhiên, không thể truy cập được mô hình và trọng số được huấn luyện trước của Imagen. Nhưng Dreambooth trên Stable Diffusion cho phép người dùng tinh chỉnh mô hình chuyển văn bản thành hình ảnh bằng một vài mẫu.

Khuếch tán ổn định DreamBooth: Làm cách nào để sử dụng DreamBooth AI trên Khuếch tán ổn định?

Thực hiện theo các bước sau để sử dụng DreamBooth AI trên Khuếch tán ổn định:

Thiết lập môi trường LDM của bạn theo hướng dẫn trong kho lưu trữ Đảo ngược văn bản hoặc kho lưu trữ Khuếch tán ổn định ban đầu.
Bạn phải có được các mô hình khuếch tán ổn định được huấn luyện trước và làm theo hướng dẫn của chúng để tinh chỉnh mô hình khuếch tán ổn định. TRÊN ôm mặttrọng lượng có thể được tải xuống.
Theo yêu cầu của kỹ thuật tinh chỉnh của Dreambooth, hãy chuẩn bị một bộ ảnh để chỉnh sửa.
Bạn có thể huấn luyện bằng cách thực hiện lệnh tiếp theo:

python main.py --base configs/stable-diffusion/v1-finetune_unfrozen.yaml 
                -t 
                --actual_resume /path/to/original/stable-diffusion/sd-v1-4-full-ema.ckpt  
                -n <job name> 
                --gpus 0, 
                --data_root /root/to/training/images 
                --reg_data_root /root/to/regularization/images 
                --class_word <xxx>

Thế hệ:

Bằng cách thực hiện lệnh sau khi đào tạo, có thể thu được các ví dụ tùy chỉnh.

python scripts/stable_txt2img.py --ddim_eta 0.0 
                                 --n_samples 8 
                                 --n_iter 1 
                                 --scale 10.0 
                                 --ddim_steps 100  
                                 --ckpt /path/to/saved/checkpoint/from/training
                                 --prompt "photo of a sks <class>"

Đặc biệt, sks là mã định danh (nếu bạn quyết định thay đổi nó, bạn nên thay thế nó theo lựa chọn của mình) và class> là từ lớp —từ lớp để đào tạo.

Kiểm tra Trang GitHub khuếch tán ổn định DreamBooth để biết thông tin chi tiết.

Hạn chế của DreamBooth AI

Đây là những hạn chế của DreamBooth AI:

Trôi dạt ngôn ngữ
Trang bị quá mức
Mất bảo quản

DreamBooth AI cho phép tái ngữ cảnh hóa

Chúng ta hãy xem xét kỹ hơn về họ.

Trôi dạt ngôn ngữ

Dấu nhắc lệnh trở thành rào cản trong việc tạo ra sự lặp lại trong chủ đề với mức độ chi tiết cao. DreamBooth có thể thay đổi bối cảnh của chủ thể, nhưng nếu người mẫu muốn thay đổi chính chủ thể đó thì có vấn đề với khung hình.

Trang bị quá mức

Việc trang bị quá nhiều hình ảnh đầu ra lên hình ảnh đầu vào lại là một vấn đề khác. Nếu không có đủ ảnh đầu vào, chủ đề có thể không được đánh giá hoặc có thể bị hợp nhất với bối cảnh của ảnh đã gửi. Điều này cũng xảy ra khi một bối cảnh dành cho một thế hệ không bình thường được nhắc đến.

Mất bảo quản

Các hạn chế khác bao gồm không có khả năng tổng hợp hình ảnh của các đối tượng hiếm hơn hoặc phức tạp hơn và độ trung thực của đối tượng không nhất quán, dẫn đến những thay đổi ảo giác và các đặc điểm không liên tục. Chủ đề của các bức ảnh đầu vào thường kết hợp với bối cảnh đầu vào.

Tác động xã hội của DreamBooth

Mục tiêu của dự án DreamBooth là cung cấp cho người dùng một công cụ hữu ích để tổng hợp các chủ thể cá nhân (động vật, đồ vật) trong nhiều hoàn cảnh khác nhau. Nó cho phép người dùng tái tạo lại các chủ đề mong muốn của họ tốt hơn, trong khi các thuật toán chuyển văn bản thành hình ảnh chung có thể thiên về một số tính năng nhất định khi tổng hợp hình ảnh từ văn bản.

DreamBooth cho phép thao tác biểu thức

Mặt khác, những kẻ bất chính có thể cố gắng đánh lừa người xem bằng cách sử dụng hình ảnh tương tự. Vấn đề phổ biến này có thể được nhìn thấy trong các cách tiếp cận mô hình tổng quát hoặc kỹ thuật thao tác nội dung khác nhau.

Phần kết luận

Hầu hết các mô hình chuyển văn bản thành hình ảnh hiển thị kết quả đầu ra dựa trên một lần nhập văn bản duy nhất sử dụng hàng triệu tham số và thư viện. DreamBooth tạo điều kiện cho người dùng truy cập và dễ sử dụng bằng cách chỉ yêu cầu đầu vào từ ba đến năm bức ảnh chủ đề được thu thập cùng với nền văn bản.

Sau đó, mô hình được đào tạo có thể sử dụng lại các đặc điểm vật chất của đối tượng đã học được từ các bức ảnh để tái tạo chúng trong các bối cảnh và góc độ khác trong khi vẫn giữ được các đặc điểm khác biệt của đối tượng.

Bạn có thể biểu diễn nghệ thuật với DreamBooth AI

Phần lớn mô hình chuyển văn bản thành hình ảnh dựa vào các từ khóa cụ thể và có thể ưu tiên các tính năng cụ thể khi hiển thị hình ảnh. Người dùng DreamBooth có thể tạo ra các kết quả chân thực bằng cách tưởng tượng chủ đề ưa thích của họ trong một bối cảnh hoặc tình huống mới lạ. Vì vậy, hãy ngừng chờ đợi ngay bây giờ. Thử nó ngay hôm nay!

Phần thưởng: Nghệ thuật AI của Wombo

Ứng dụng Giấc mơ WOMBO gần đây đã được tạo ra bởi công ty trí tuệ nhân tạo WOMBO AI của Canada.

Phần mềm, có thể truy cập được thông qua hầu hết các nhà bán lẻ trực tuyến và trình duyệt web, sử dụng AI để kết hợp các lời nhắc từ ngữ với một loại hình nghệ thuật cụ thể để tạo ra những bức tranh tuyệt đẹp, hoàn toàn độc đáo chỉ trong vài giây. Nếu bạn muốn tìm hiểu thêm, chúng tôi đã giải thích cách sử dụng Wombo Dream. Thể hiện trí tưởng tượng của bạn!

cả cho của den DreamBooth Google họa mạng nghe Nhân su thuật

DreamBooth của Google mang đến sự cá nhân hóa cho nghệ thuật AI