▷ Cách huấn luyện AI khuếch tán ổn định bằng khuôn mặt của bạn để tạo ra tác phẩm nghệ thuật bằng DreamBooth

Bài đăng của khách bởi Tarunabh Dutta.

Nếu năm 2021 là năm của các mô hình ngôn ngữ AI dựa trên từ ngữ thì năm 2022 đã có bước nhảy vọt trong các mô hình AI chuyển văn bản thành hình ảnh. Hiện nay có rất nhiều mô hình AI chuyển văn bản thành hình ảnh có thể tạo ra hình ảnh chất lượng cao. Khuếch tán ổn định là một trong những lựa chọn phổ biến và được nhiều người biết đến nhất. Đây là một mô hình nhanh và ổn định, tạo ra kết quả nhất quán.

Quá trình tạo ra hình ảnh vẫn còn có phần bí ẩn nhưng rõ ràng Stable Diffusion mang lại kết quả xuất sắc. Nó có thể được sử dụng để tạo hình ảnh từ văn bản hoặc thay đổi hình ảnh hiện có. Các tùy chọn và thông số có sẵn cho phép tùy chỉnh và kiểm soát nhiều đối với hình ảnh cuối cùng.

Mặc dù việc xử lý hình ảnh của những người nổi tiếng và nhân vật nổi tiếng tương đối dễ dàng hơn, hoàn toàn là do bộ hình ảnh đã có sẵn, nhưng để AI hoạt động trên khuôn mặt của chính bạn không dễ dàng như vậy. Logic nói rằng hãy cung cấp hình ảnh của bạn cho mô hình AI và sau đó để nó thực hiện điều kỳ diệu của nó, nhưng chính xác thì làm thế nào người ta có thể làm được điều đó?

Trong bài viết này, chúng tôi sẽ cố gắng trình bày cách huấn luyện mô hình Khuếch tán ổn định bằng cách sử dụng tính năng đảo ngược văn bản DreamBooth trên tham chiếu hình ảnh để xây dựng các hình ảnh đại diện AI cho khuôn mặt của chính bạn hoặc bất kỳ đối tượng nào khác và tạo ra các bức ảnh kết quả với kết quả, độ chính xác và tính nhất quán đáng kinh ngạc. Nếu nó có vẻ quá kỹ thuật, hãy chờ đợi và chúng tôi sẽ cố gắng làm cho nó thân thiện với người mới bắt đầu nhất có thể.

Khuếch tán ổn định là gì?

Hãy tìm hiểu những điều cơ bản. Mô hình Khuếch tán ổn định là mô hình học máy chuyển văn bản thành hình ảnh tiên tiến nhất được đào tạo trên một tập hợp hình ảnh lớn. Chi phí đào tạo rất tốn kém, khoảng 660.000 USD. Tuy nhiên, mô hình Khuếch tán ổn định có thể được sử dụng để tạo ra nghệ thuật bằng ngôn ngữ tự nhiên.

Các mô hình AI chuyển văn bản thành hình ảnh deep learning đang ngày càng trở nên phổ biến nhờ khả năng dịch văn bản thành hình ảnh một cách chính xác. Mô hình này được sử dụng miễn phí và có thể tìm thấy trên Hugging Face Spaces và DreamStudio. Trọng lượng mô hình cũng có thể được tải xuống và sử dụng cục bộ.

Khuếch tán ổn định sử dụng một quy trình có tên là “khuếch tán” để tạo ra các hình ảnh trông giống với lời nhắc văn bản.

Nói tóm lại, thuật toán Khuếch tán ổn định lấy mô tả bằng văn bản và tạo hình ảnh dựa trên mô tả đó. Hình ảnh được tạo sẽ trông giống với văn bản nhưng sẽ không phải là bản sao chính xác. Các lựa chọn thay thế cho Khuếch tán ổn định bao gồm các mô hình Dall-E của OpenAI và Imagen của Google.

Đọc liên quan: 9 Ứng dụng tạo nghệ thuật AI tốt nhất cho iPhone và Android

Hướng dẫn Huấn luyện AI Khuếch tán Ổn định bằng Khuôn mặt của bạn để Tạo hình ảnh bằng DreamBooth

Hôm nay, tôi sẽ trình bày cách đào tạo mô hình Khuếch tán ổn định bằng cách sử dụng khuôn mặt của tôi làm tham chiếu ban đầu để tạo ra hình ảnh có phong cách nhất quán và chính xác cao, vừa nguyên bản vừa mới mẻ.

Vì vậy, với mục đích này, chúng tôi sẽ sử dụng một Google Colab gọi điện DreamBooth để huấn luyện Khuếch tán ổn định.

Trước khi ra mắt Google Colab này, chúng tôi phải chuẩn bị một số nội dung nhất định.

Sân khấu 1: Google Drive có đủ dung lượng trống

Để làm được điều này, bạn cần có tài khoản Google Drive có ít nhất 9 GB không gian trống.

Tài khoản Google Drive miễn phí đi kèm với 15 GB dung lượng lưu trữ trống, đủ cho nhiệm vụ này. Vì vậy, bạn có thể tạo một tài khoản Gmail hoàn toàn mới (dùng một lần) chỉ cho mục đích này.

Sân khấu 2: Hình ảnh tham khảo đào tạo AI

Thứ hai, bạn phải có sẵn ít nhất hàng chục bức chân dung khuôn mặt của bạn hoặc bất kỳ đối tượng mục tiêu nào để sử dụng làm tài liệu tham khảo.

Hãy đảm bảo rằng các đặc điểm trên khuôn mặt được hiển thị rõ ràng và được chiếu sáng đầy đủ trong ảnh đã chụp. Tránh sử dụng bóng quá mạnh, đặc biệt là trên khuôn mặt.
Ngoài ra, đối tượng phải quay mặt về phía máy ảnh hoặc có góc nhìn nghiêng nhìn rõ cả mắt và tất cả các đặc điểm trên khuôn mặt.
Máy ảnh phải có khả năng chụp các đặc điểm khuôn mặt chất lượng cao. Lựa chọn tốt nhất là máy ảnh DSLR hoặc mirrorless cấp độ chuyên nghiệp. Một máy ảnh điện thoại thông minh có chất lượng tuyệt vời cũng có thể đủ.
Bố cục phải được đặt ở giữa khung với một khoảng trống nhỏ.
Đối với hình ảnh đầu vào, tối thiểu phải có tối thiểu 12 bức ảnh cận cảnh khuôn mặt, 5 bức ảnh chụp giữa từ đầu đến trên thắt lưng và khoảng 3 bức ảnh toàn thân là đủ.
Tối thiểu hai mươi bức ảnh tham khảo là đủ cho mục đích này.

Trong trường hợp của tôi, tôi đã chụp và tập hợp một bộ sưu tập khoảng 50 bức ảnh tự chụp chân dung mà tôi đã cắt thành 512 x 512 pixel bằng công cụ trực tuyến – Birme. Bạn cũng có thể sử dụng bất kỳ trình chỉnh sửa hình ảnh thay thế nào cho mục đích này.

Xin lưu ý rằng hình ảnh đầu ra cuối cùng phải được tối ưu hóa cho web và giảm kích thước tệp mà chất lượng bị giảm ở mức tối thiểu.

Sân khấu 3: Google Colab

Thời gian chạy Google Colab hiện có thể được thực thi.

Có cả phiên bản miễn phí và trả phí Nền tảng Google Colab. Dreambooth có thể chạy trên phiên bản miễn phí, nhưng hiệu suất nhanh hơn và ổn định hơn đáng kể trên phiên bản Colab Pro (trả phí), phiên bản này ưu tiên sử dụng GPU tốc độ cao và gán ít nhất 15 GB của VRAM đối với nhiệm vụ hiện tại.

Nếu bạn không ngại chi một vài đô la thì gói đăng ký Colab Pro trị giá 10 đô la bao gồm 100 đơn vị điện toán mỗi tháng là quá đủ cho phiên này.

Bạn cũng sẽ có quyền truy cập vào bộ nhớ RAM bổ sung và GPU tương đối mạnh hơn và nhanh hơn.

Hãy để tôi nhắc lại điều này: Bạn KHÔNG cần phải là chuyên gia kỹ thuật để chạy Colab này. Bạn cũng không yêu cầu bất kỳ kinh nghiệm viết mã nào trước đó.

Sau khi bạn đăng ký bằng Google Colab (phiên bản miễn phí hoặc trả phí), hãy đăng nhập bằng thông tin xác thực của bạn và đi đến liên kết này mở Khuếch tán ổn định DreamBooth.

Google Colab có các phần hoặc ô “thời gian chạy” với các nút phát có thể nhấp vào ở bên trái, được sắp xếp tuần tự. Để phát thời gian chạy bắt đầu từ trên cùng, chỉ cần nhấp vào từng nút phát. Mỗi phân đoạn bao gồm một thời gian chạy phải được thực thi. Khi bạn nhấp vào nút phát, phần tương ứng sẽ được thực thi dưới dạng thời gian chạy. Sau một thời gian, dấu kiểm màu xanh lục sẽ xuất hiện ở bên trái nút phát để cho biết thời gian chạy đã được thực hiện thành công.

Hãy đảm bảo rằng bạn chỉ thực hiện thủ công một thời gian chạy tại một thời điểm và chỉ chuyển sang phần “thời gian chạy” tiếp theo khi thời gian chạy hiện tại kết thúc.

Trong phần thời gian chạy của thanh menu trên cùng, bạn có tùy chọn chạy đồng thời tất cả các thời gian chạy. Tuy nhiên, điều này không được khuyến khích.

Bên dưới đó là tùy chọn có nhãn “Thay đổi loại thời gian chạy”. Nếu bạn đã đăng ký gói đăng ký chuyên nghiệp, bạn có thể chọn và lưu GPU “cao cấp” và RAM cao để thực thi.

Bây giờ bạn đã sẵn sàng bắt đầu DreamBooth Colab.

10 bước để hoàn thành thành công mô hình AI đã được đào tạo trên DreamBooth

BƯỚC CHÂN 1: Quyết định GPU và VRAM

Bước đầu tiên là xác định loại GPU và VRAM có sẵn. Người dùng chuyên nghiệp sẽ có quyền truy cập vào GPU nhanh và VRAM nâng cao ổn định hơn.

Khi bạn nhấp vào nút phát, nó sẽ hiển thị cảnh báo vì GitHub, trang web nguồn của nhà phát triển, đang được truy cập. Bạn chỉ cần nhấp vào “Chạy bất cứ đâu” để tiếp tục.

BƯỚC CHÂN 2: Chạy DreamBooth

Trong bước tiếp theo, bạn phải cài đặt một số yêu cầu và phụ thuộc nhất định. Bạn chỉ cần nhấp vào nút play và để nó chạy.

BƯỚC CHÂN 3: Đăng nhập ôm mặt

Sau khi nhấn nút play, bước tiếp theo sẽ yêu cầu bạn đăng nhập tài khoản Hugging Face. Bạn có thể tạo một tài khoản miễn phí nếu bạn chưa có. Sau khi đăng nhập, hãy điều hướng đến trang Cài đặt của bạn từ góc trên bên phải.

Sau đó, nhấp vào ‘Mã thông báo truy cập‘ phần và ‘Tạo mới‘ để tạo “mã thông báo truy cập” mới và đổi tên nó theo ý muốn.

Sao chép mã thông báo truy cập, sau đó quay lại tab Colab và nhập mã đó vào trường được cung cấp, sau đó nhấp vào “Đăng nhập.”

BƯỚC CHÂN 4: Cài đặt xformers

Ở bước này, bạn có thể nhấp vào thời gian chạy để cài đặt xformers chỉ bằng cách nhấn vào nút phát.

BƯỚC CHÂN 5: Kết nối Google Drive

Sau khi nhấp vào chơi nút, trong một cửa sổ bật lên mới, bạn sẽ được yêu cầu cấp quyền truy cập vào tài khoản Google Drive của mình. Nhấp vào “Cho phép” khi được yêu cầu cấp quyền.

Sau khi cấp quyền, bạn phải xác nhận rằng “lưu vào Google Drive” đã được chọn. Bạn cũng phải đặt tên mới cho ‘TÊN LỚP‘ Biến đổi. Nếu bạn muốn gửi hình ảnh tham chiếu của một người, chỉ cần đặt ‘người’, ‘đàn ông’ hoặc ‘phụ nữ’. Nếu hình ảnh tham chiếu của bạn là về một con chó, hãy nhập ‘con chó’, v.v. Bạn có thể giữ nguyên các trường còn lại. Ngoài ra, bạn có thể đổi tên thư mục đầu vào—’INSTANCE DIR’ hoặc thư mục đầu ra—’OUTPUT DIR.’

BƯỚC CHÂN 6: Tải lên ảnh tham khảo

Sau khi nhấp vào nút phát ở bước trước, bạn sẽ thấy tùy chọn tải lên và thêm tất cả ảnh tham chiếu của mình.

Tôi muốn giới thiệu tối thiểu 6 và tối đa 20 ảnh. Tham khảo “ GIAI ĐOẠN 2” ở trên để biết giải thích ngắn gọn về cách chọn ảnh tham khảo tốt nhất dựa trên cách chụp đối tượng.

Khi tất cả hình ảnh của bạn đã được tải lên, bạn có thể xem chúng ở cột bên trái. Có một biểu tượng thư mục. Khi nhấp vào nó, bạn sẽ có thể xem các thư mục và thư mục con nơi dữ liệu của bạn hiện đang được lưu trữ.

Trong thư mục dữ liệu, bạn có thể xem thư mục đầu vào, nơi lưu trữ tất cả ảnh đã tải lên của bạn. Trong trường hợp của tôi, nó được gọi là “sks” (tên mặc định).

Ngoài ra, xin lưu ý rằng nội dung này chỉ được lưu trữ tạm thời trong bộ nhớ Google Colab của bạn chứ không phải trên Google Drive.

BƯỚC CHÂN 7: Đào tạo mô hình AI với DreamBooth

Đây là bước quan trọng nhất vì bạn sẽ đào tạo một mô hình AI mới dựa trên tất cả các ảnh tham chiếu đã tải lên của bạn bằng DreamBooth.

Bạn chỉ phải tập trung vào hai trường đầu vào. Tham số đầu tiên là “—dấu nhắc phiên bản.” Ở đây, bạn phải nhập một cái tên thật độc đáo. Trong trường hợp của tôi, tôi sẽ sử dụng tên của mình theo sau là tên viết tắt của tôi. Toàn bộ ý tưởng là giữ cho tên đầy đủ duy nhất và chính xác.

Trường đầu vào quan trọng thứ hai là tham số ‘—class nhắc’. Bạn phải đổi tên nó để khớp với tên bạn đã sử dụng trong ‘STEP 4’. Trong trường hợp của tôi, tôi đã sử dụng thuật ngữ “người đàn ông”. Vì vậy tôi sẽ gõ lại nó vào trường này và ghi đè lên bất kỳ mục nhập nào trước đó.

Các trường còn lại có thể được giữ nguyên. Tôi đã quan sát thấy người dùng thử nghiệm bằng cách thay đổi các trường như ‘—num hình ảnh lớp’ thành 12 và ‘—bước tàu tối đa’ thành 1000, 2000 hoặc thậm chí cao hơn. Tuy nhiên, hãy nhớ rằng việc sửa đổi các trường này có thể khiến Colab hết bộ nhớ và gặp sự cố, buộc bạn phải khởi động lại từ đầu. Vì vậy, không nên chỉnh sửa chúng trong lần thử đầu tiên. Bạn có thể thử nghiệm chúng trong tương lai sau khi đã có đủ kinh nghiệm.

Sau khi bạn thực thi thời gian chạy này bằng cách nhấp vào nút phát, Colab sẽ bắt đầu tải xuống các tệp thực thi cần thiết và sau đó sẽ có thể đào tạo bằng cách sử dụng ảnh tham chiếu của bạn.

Việc đào tạo mô hình sẽ mất từ 15 phút đến hơn một giờ. Bạn phải kiên nhẫn và theo dõi tiến trình cho đến khi thời gian chạy hoàn tất. Nếu Google Colab của bạn không hoạt động quá lâu, nó có thể được đặt lại. Vì vậy, hãy tiếp tục kiểm tra tiến trình và thỉnh thoảng nhấp vào tab.

BƯỚC CHÂN 8: Chuyển đổi mô hình AI sang định dạng ckpt

Sau khi quá trình đào tạo hoàn tất, bạn sẽ có tùy chọn chuyển đổi mô hình đã đào tạo thành tệp ở định dạng ckpt, tương thích trực tiếp với Khuếch tán ổn định.

Việc chuyển đổi có thể được thực hiện trong hai giai đoạn thời gian chạy. Đầu tiên là “Tải xuống tập lệnh,” và thứ hai là “Chạy chuyển đổi,” nơi bạn có tùy chọn giảm kích thước tải xuống của mô hình đã đào tạo. Tuy nhiên, làm như vậy sẽ làm giảm đáng kể chất lượng hình ảnh thu được.

Do đó, để duy trì kích thước ban đầu, ‘fp16‘ tùy chọn phải không được chọn.

Vào cuối thời gian chạy cụ thể này, một tệp có tên là “model.ckpt” sẽ được lưu vào Google Drive được kết nối của bạn.

Chúng tôi có thể lưu tệp này để sử dụng trong tương lai vì thời gian chạy của bạn sẽ bị xóa ngay lập tức khi bạn đóng tab trình duyệt DreamBooth Colab. Khi mở lại phiên bản Colab của DreamBooth sau này, bạn sẽ phải bắt đầu lại từ đầu.

Giả sử bạn lưu tệp mô hình đã đào tạo vào Google Drive của mình. Trong trường hợp đó, bạn có thể truy xuất nó sau để sử dụng với GUI Khuếch tán ổn định, DreamBooth hoặc bất kỳ sổ ghi chép Colab khuếch tán ổn định nào được cài đặt cục bộ yêu cầu tải tệp “model.ckpt” để thời gian chạy hoạt động hiệu quả. Bạn cũng có thể lưu nó vào đĩa cứng cục bộ để sử dụng sau.

BƯỚC CHÂN 9: Chuẩn bị cho lời nhắc bằng văn bản

Hai quy trình thời gian chạy tiếp theo trong danh mục “Suy luận” chuẩn bị cho mô hình mới được đào tạo cho lời nhắc văn bản được sử dụng để tạo hình ảnh. Chỉ cần nhấn nút phát cho mỗi lần chạy và quá trình này sẽ kết thúc sau vài phút.

BƯỚC 10: Tạo hình ảnh AI

Đây là bước cuối cùng, nơi bạn có thể nhập lời nhắc bằng văn bản và hình ảnh AI sẽ được tạo.

Bạn phải sử dụng tên chính xác của ‘instance_prompt’ và ‘–class_prompt’ cùng nhau từ STEP 6 ở đầu dòng nhắc văn bản. Ví dụ: trong trường hợp của tôi, tôi đã sử dụng “chân dung người đàn ông tarunabhtd, bức tranh kỹ thuật số” để tạo ra các hình ảnh AI mới giống với chính tôi.

Dưới đây bạn có thể thấy một số kết quả hình ảnh được tạo bằng mô hình đã được đào tạo của DreamBooth.

Chơi đùa với những lời nhắc để có được kết quả tốt nhất

Nếu cẩn thận làm theo các bước được nêu ở trên, bạn sẽ có thể tạo ra hình ảnh AI gần giống với đặc điểm khuôn mặt trong hình ảnh tham chiếu của mình. Phương pháp này chỉ yêu cầu nền tảng Google Colab trực tuyến thực thi phiên bản nâng cấp của công nghệ AI để đảo ngược văn bản.

Để có ý tưởng tốt hơn cho lời nhắc bằng văn bản, bạn có thể xem các trang web như –

Bạn cũng cần học nghệ thuật tạo lời nhắc văn bản tốt hơn và hiệu quả hơn bằng cách sử dụng nhiều phong cách nghệ thuật và sự kết hợp khác nhau. Một nơi khởi đầu tốt sẽ là SubReddit khuếch tán ổn định.

Reddit có một cộng đồng lớn dành riêng cho Stable Diffusion. Ngoài ra còn có một số Facebook các nhóm và cộng đồng Discord tích cực thảo luận, chia sẻ và khám phá những con đường mới về Khuếch tán ổn định.

Dưới đây tôi cũng chia sẻ liên kết đến một số video hướng dẫn DreamBooth mà bạn có thể xem trên Youtube –

Tôi hy vọng bạn thấy hướng dẫn này hữu ích. Nếu bạn có bất kỳ câu hỏi nào, vui lòng bình luận bên dưới và chúng tôi sẽ cố gắng giúp bạn.

Tác giả:

Tarunabh Dutta là nhà làm phim từng đoạt giải thưởng, người đã hoàn thành hơn 45 dự án trong 16 năm qua, bao gồm phim truyện, phim ngắn, video ca nhạc, phim tài liệu và quảng cáo thương mại, dưới biểu ngữ độc lập của mình ‘Xưởng phim TD‘.

Mục lục

Cách huấn luyện AI khuếch tán ổn định bằng khuôn mặt của bạn để tạo ra tác phẩm nghệ thuật bằng DreamBooth