▷ Deepfake là gì và làm thế nào để tạo ra chúng?

Lời giải thích toàn diện của bạn về Deepfakes và cách tạo chúng dễ dàng bằng Faceswap.

Trí tuệ nhân tạo không còn quá “nhân tạo” nữa. Thời gian này đã đưa anh ấy đến gần con người chúng ta một cách nguy hiểm.

Anh ấy có thể gợi ý, anh ấy có thể viết, anh ấy có thể sáng tạo nghệ thuật, và bây giờ anh ấy trông và nói chuyện như thật.

Đây là một trong những phát triển mới nhất trong lĩnh vực này và chúng ta nên tận dụng nó. Tuy nhiên, đây cũng là điều chúng ta phải lưu ý.

Deepfake là gì?

Từ Deepfake được đặt ra từ sự kết hợp giữa deep learning và giả mạo. Nói một cách đơn giản, cũng có thể cho rằng chúng là những phương tiện truyền thông bị thao túng một cách chuyên nghiệp hoặc bị làm sai lệch sâu sắc.

Theo Wikipedia, đây còn được gọi là phương tiện tổng hợp trong đó hình ảnh, âm thanh hoặc video hiện có được sửa đổi để thể hiện một người hoàn toàn khác.

Thông thường, deepfake khiến những người nổi tiếng dường như đang nói điều gì đó mà họ sẽ không nói.

Dựa trên kỹ năng của người tạo ra nó, rất khó để phân biệt nó là thật hay giả.

Deepfake hoạt động như thế nào?

Nói một cách đơn giản, một phần của video gốc (ví dụ: khuôn mặt) được thay thế bằng video giả có hình dáng tương tự. Trong trường hợp đó, nó cũng có thể được gọi là hoán đổi khuôn mặt, giống như trong bộ phim “Obama” đó.

Tuy nhiên, nó không chỉ giới hạn ở video, chúng ta còn có hình ảnh và âm thanh deepfake (và ai biết được, hình đại diện VR deepfake trong tương lai gần).

nguồn: Disney

Phương pháp hoạt động đằng sau những trò gian lận như vậy phụ thuộc chủ yếu vào ứng dụng và thuật toán cơ bản.

Theo tài liệu nghiên cứu này của Disney, có nhiều kỹ thuật khác nhau bao gồm codec, mạng đối thủ tổng quát (GAN), giả mạo sâu dựa trên hình học, v.v.

Tuy nhiên, các phần sau bị ảnh hưởng nặng nề bởi cách thức hoạt động của Facewap. Đây là một phần mềm Deepfake mã nguồn mở và miễn phí, cho phép nhiều thuật toán đạt được kết quả như mong đợi.

Có ba quy trình chính để tạo deepfake: trích xuất, đào tạo và chuyển đổi.

# 1. Khai thác

Đó là về việc phát hiện và thu hẹp khu vực chủ đề quan tâm từ các mẫu phương tiện, bản gốc và mẫu sẽ được thay thế.

Tùy thuộc vào khả năng của phần cứng, có thể có nhiều thuật toán xác định việc phát hiện thành công.

Ví dụ: Faceswap có một số tùy chọn trích xuất, căn chỉnh và che giấu khác nhau dựa trên hiệu suất CPU hoặc GPU.

Việc trích xuất chỉ đơn giản là xác định khuôn mặt trong toàn bộ video. Căn chỉnh phát hiện các đặc điểm chính của bất kỳ khuôn mặt nào (mắt, mũi, cằm, v.v.). Và cuối cùng, việc tạo mặt nạ sẽ chặn các phần tử khác của hình ảnh nằm ngoài vùng quan tâm.

Tổng thời gian xuất ra rất quan trọng khi chọn bất kỳ tùy chọn nào, vì việc chọn các thuật toán sử dụng nhiều tài nguyên trên phần cứng trung bình có thể dẫn đến lỗi hoặc mất một thời gian dài đáng kể để có được kết quả có thể chấp nhận được.

Ngoài phần cứng, việc lựa chọn còn phụ thuộc vào các thông số như video đầu vào có bị cản trở trên khuôn mặt như cử động tay hay đeo kính hay không.

Một yếu tố cần thiết cuối cùng là làm sạch đầu ra (sẽ giải thích sau), vì quá trình trích xuất sẽ có một số kết quả dương tính giả.

Cuối cùng, quá trình trích xuất được lặp lại cho video gốc và video giả (dùng để hoán đổi).

#2. Đào tạo

Đây là bản chất của việc tạo ra deepfake.

Việc đào tạo liên quan đến mạng lưới thần kinh, bao gồm bộ mã hóa và bộ giải mã. Tại đây, các thuật toán được cung cấp dữ liệu đã trích xuất để tạo mô hình cho việc chuyển đổi sau này.

Bộ mã hóa chuyển đổi đầu vào thành biểu diễn vectơ để dạy thuật toán tạo lại các mặt từ vectơ giống như bộ giải mã thực hiện.

Mạng lưới thần kinh sau đó đánh giá các lần lặp của nó và so sánh chúng với bản gốc, ấn định điểm tổn thất. Giá trị tổn thất này giảm dần theo thời gian khi thuật toán tiếp tục lặp lại và bạn dừng lại khi bản xem trước được chấp nhận.

Đào tạo là một quá trình tốn thời gian và kết quả thường được cải thiện dựa trên số lần lặp được thực hiện và chất lượng của dữ liệu đầu vào.

Ví dụ: Faceawap đề xuất ít nhất 500 hình ảnh, nguyên gốc và có thể giao dịch được. Ngoài ra, các hình ảnh phải có sự khác biệt đáng kể với nhau, bao phủ mọi góc độ có thể có trong ánh sáng độc đáo để mang lại trải nghiệm giải trí tốt nhất.

Do thời lượng tập luyện kéo dài, một số ứng dụng (ví dụ: Faceswap) cho phép bạn dừng bài tập giữa chừng hoặc tiếp tục sau.

Điều đáng chú ý là độ chân thực của đầu ra cũng phụ thuộc vào hiệu suất của thuật toán và đầu vào. Một lần nữa, nó bị hạn chế bởi khả năng phần cứng.

#3. chuyển đổi

Đây là chương cuối cùng của quá trình tạo deepfake. Các thuật toán chuyển đổi yêu cầu video nguồn, mô hình được đào tạo và tệp căn chỉnh nguồn.

Sau đó, bạn có thể thay đổi một số tùy chọn liên quan đến hiệu chỉnh màu sắc, loại mặt nạ, định dạng đầu ra mong muốn, v.v.

Sau khi định cấu hình một số tùy chọn này, tất cả những gì còn lại phải làm là đợi kết xuất cuối cùng.

Như đã đề cập, Faceswap hoạt động với nhiều thuật toán và bạn có thể chơi giữa chúng để có được sự hoán đổi khuôn mặt được chấp nhận.

Đó là tất cả?

KHÔNG!

Đó chỉ là hoán đổi khuôn mặt, một tập hợp con của công nghệ deepfake. Hoán đổi khuôn mặt, theo nghĩa đen, chỉ thay thế một phần khuôn mặt để cho bạn ý tưởng mơ hồ về những gì deepfake có thể làm.

Bạn cũng có thể cần bắt chước âm thanh (hay còn gọi là sao chép giọng nói) và toàn bộ cơ thể của bạn, bao gồm mọi thứ phù hợp với khung hình, để có sự hoán đổi đáng tin cậy, chẳng hạn:

Vậy điều gì đang bị đe dọa ở đây?

Có thể đã xảy ra trường hợp tác giả deepfake tự quay video (như được chỉ ra trong vài giây cuối cùng), đồng bộ đoạn hội thoại với giọng nói tổng hợp của Morgan Freeman và thay thế phần đầu.

Nhìn chung, đó không chỉ là sự hoán đổi khuôn mặt mà là toàn bộ khung hình, bao gồm cả âm thanh.

TRÊN YouTube bạn có thể tìm thấy rất nhiều điều sâu sắc đến mức thật đáng sợ khi nghĩ nên tin ai. Để bắt đầu, tất cả những gì bạn cần là một máy tính mạnh mẽ với card đồ họa mạnh mẽ.

Tuy nhiên, sự hoàn hảo rất khó đạt được, đặc biệt là với deepfake.

Một deepfake thuyết phục có thể đánh lừa hoặc làm hài lòng người xem đòi hỏi phải có kỹ năng và vài ngày hoặc vài tuần để xử lý một hoặc hai phút video.

Điều thú vị là đây là những khả năng hiện tại của các thuật toán này. Nhưng những gì tương lai sẽ xảy ra, bao gồm cả tính hiệu quả của những ứng dụng này trên phần cứng cấp thấp, là điều khiến toàn bộ chính phủ khó chịu.

Tuy nhiên, chúng tôi sẽ không đi sâu vào hậu quả của nó trong tương lai. Thay vào đó, hãy xem cách tự làm để giải trí một chút.

Tạo video Deepfake (cơ bản)

Bạn có thể xem nhiều ứng dụng trong danh sách ứng dụng meme deepfake này.

Một trong số đó là Faceswap mà chúng tôi sẽ sử dụng.

Trước khi tiếp tục, chúng ta hãy đảm bảo một số điều. Đầu tiên, chúng ta nên có những thước phim chất lượng tốt về mục tiêu thể hiện những cảm xúc khác nhau. Tiếp theo, chúng ta sẽ cần video nguồn để chuyển đổi sang video đích.

Ngoài ra, hãy đóng tất cả các ứng dụng sử dụng nhiều đồ họa như trình duyệt hoặc trò chơi trước khi truy cập Faceswap. Điều này đặc biệt đúng nếu bạn có ít hơn 2 gigabyte VRAM (bộ nhớ video).

Bước chân 1: Trích xuất khuôn mặt

Bước đầu tiên trong quá trình này là trích xuất khuôn mặt từ video. Để làm được điều này, chúng ta cần chọn video mục tiêu trong thư mục đầu vào và hiển thị thư mục đầu ra để trích xuất.

Ngoài ra, còn có một số tùy chọn bao gồm máy dò, bộ căn chỉnh, mặt nạ, v.v.; Giải thích cho từng vấn đề đều có trong Câu hỏi thường gặp về Faceawap và sẽ thật lãng phí nếu lặp lại thông tin ở đây.

Nguồn: Câu hỏi thường gặp về hoán đổi khuôn mặt

Nói chung, bạn nên xem qua tài liệu để hiểu rõ hơn và đạt điểm cao. Tuy nhiên, bạn có thể tìm thấy những văn bản hữu ích trong Faceswap bằng cách di chuột qua một tùy chọn cụ thể.

Nói một cách đơn giản, không có cái nào phù hợp cho tất cả và người ta phải bắt đầu với các thuật toán tốt nhất và thực hiện thành công để tạo ra một bản deepfake thuyết phục.

Đối với ngữ cảnh, tôi đã sử dụng Mtcnn (bộ dò), Fan (bộ căn chỉnh) và Bisenet-Fp (mặt nạ), giữ nguyên tất cả các tùy chọn khác.

Ban đầu tôi đã thử nó với S3Fd (máy dò tốt nhất) và một số mặt nạ khác kết hợp. Tuy nhiên, Nvidia GeForce GTX 750Ti 2Gb của tôi không thể chịu được trọng lượng và quá trình này đã thất bại nhiều lần.

Cuối cùng tôi đã giảm bớt kỳ vọng và cài đặt của mình để thấy điều này.

Ngoài việc chọn đúng máy dò, mặt nạ, v.v., còn có một số tùy chọn khác trong Cài đặt > Định cấu hình Cài đặt giúp bạn tùy chỉnh thêm các cài đặt riêng lẻ để hỗ trợ thiết bị của mình.

Nói một cách đơn giản, hãy chọn kích thước lô, kích thước đầu vào và kích thước đầu ra thấp nhất có thể, sau đó kiểm tra LowMem, v.v. Các tùy chọn này không có sẵn phổ biến và dựa trên một phần cụ thể. Ngoài ra, các văn bản trợ giúp còn giúp bạn chọn các tùy chọn tốt nhất.

Mặc dù công cụ này thực hiện công việc trích xuất khuôn mặt rất xuất sắc nhưng các khung đầu ra có thể chứa nhiều hơn mức cần thiết để huấn luyện mô hình (sẽ thảo luận sau). Ví dụ: nó sẽ bao gồm tất cả các khuôn mặt (nếu video có nhiều khuôn mặt) và một số phát hiện không hợp lệ khi không có khuôn mặt mục tiêu nào cả.

Điều này dẫn đến việc làm sạch dữ liệu. Bạn có thể kiểm tra thư mục đầu ra và tự xóa hoặc sử dụng tính năng sắp xếp Faceswap để được trợ giúp.

Sử dụng công cụ nói trên sẽ sắp xếp từng khuôn mặt khác nhau, từ đó bạn có thể kết hợp những khuôn mặt cần thiết vào một thư mục và xóa phần còn lại.

Xin nhắc lại, bạn sẽ muốn lặp lại quá trình trích xuất cho video nguồn.

Bước chân 2: Đào tạo người mẫu

Đây là quá trình dài nhất để tạo ra một deepfake. Ở đây đầu vào A đại diện cho mặt đích và đầu vào B đại diện cho mặt nguồn. Ngoài ra, Model Dir là nơi lưu trữ các file huấn luyện.

Ở đây lựa chọn quan trọng nhất là Huấn luyện viên. Có rất nhiều tùy chọn chia tỷ lệ riêng lẻ; tuy nhiên, thứ phù hợp với phần cứng của tôi là Dfl-H128 và máy tập nhẹ với cài đặt cấu hình thấp nhất.

Tiếp theo là kích thước lô. Kích thước lô lớn hơn giúp giảm tổng thời gian đào tạo nhưng sử dụng nhiều VRAM hơn. Việc lặp lại không có tác dụng cố định đối với đầu ra và bạn nên đặt giá trị đủ cao và ngừng đào tạo khi bản xem trước được chấp nhận.

Có thêm một số cài đặt, bao gồm tạo timelapse với các khoảng thời gian đã đặt; tuy nhiên, tôi đã huấn luyện mô hình ở mức tối thiểu.

Bước chân 3: Thay thế bằng bản gốc

Đây là thành tựu mới nhất trong việc tạo ra một deepfake.

Thường không mất nhiều thời gian như vậy và bạn có thể chơi với nhiều lựa chọn để nhanh chóng đạt được kết quả mong muốn.

Như trong hình trên, đây là một số tùy chọn bạn cần chọn để bắt đầu chuyển đổi.

Hầu hết các tùy chọn đều đã được đề cập, chẳng hạn như thư mục đầu vào và đầu ra, thư mục mô hình, v.v. Điều quan trọng là căn chỉnh, đề cập đến tệp căn chỉnh (.fsa) của video mục tiêu. Nó sẽ được tạo trong thư mục đầu vào trong quá trình giải nén.

Trường Căn chỉnh có thể để trống nếu tệp chưa được di chuyển. Nếu không, bạn có thể chọn một tệp và tiến hành các tùy chọn khác. Tuy nhiên, hãy đảm bảo xóa tệp căn chỉnh nếu trước đó bạn đã làm sạch các phần trích xuất.

Với mục đích này, công cụ nhỏ này nằm trong Công cụ > Căn chỉnh.

Bắt đầu bằng cách chọn Xóa bề mặt trong phần Tác vụ, chọn tệp căn chỉnh ban đầu và thư mục của các bề mặt đích đã được làm sạch, sau đó nhấp vào Căn chỉnh ở góc dưới bên phải.

Điều này sẽ tạo một tệp căn chỉnh được sửa đổi phù hợp với thư mục bề mặt được tối ưu hóa. Lưu ý rằng chúng tôi cần điều này cho video mục tiêu mà chúng tôi muốn chuyển đổi.

Một vài cấu hình khác bao gồm tùy chỉnh màu sắc và loại mặt nạ. Việc kết hợp màu sắc quyết định sự hòa trộn của mặt nạ và bạn có thể thử một vài màu, kiểm tra bản xem trước và chọn tùy chọn tối ưu.

Loại mặt nạ quan trọng hơn. Điều này một lần nữa phụ thuộc vào mong đợi của bạn và thiết bị có sẵn. Thông thường, các đặc điểm của video đầu vào cũng phải được xem xét. Ví dụ, Vgg-Clear hoạt động tốt với các mặt chính diện không có vật cản, trong khi Vgg-Obstructed cũng có thể hoạt động tốt với các vật cản như cử chỉ tay, kính, v.v.

Sau đó, người viết trình bày một số tùy chọn dựa trên đầu ra mong muốn. Ví dụ: chọn Ffmpeg để hiển thị video.

Nói chung, chìa khóa để tạo ra một deepfake thành công là xem trước một số kết quả và tối ưu hóa tùy theo thời gian sẵn có và sức mạnh phần cứng.

Ứng dụng deepfake

Deepfake có những cách sử dụng tốt, xấu và nguy hiểm.

Những điều tốt liên quan đến việc tái hiện các bài học lịch sử của những người thực sự có mặt ở đó để có sự tham gia nhiều hơn.

Ngoài ra, chúng còn được các nền tảng học tập trực tuyến sử dụng để tạo video từ văn bản.

Nhưng một trong những người hưởng lợi lớn nhất sẽ là ngành điện ảnh. Ở đây sẽ dễ dàng hình dung ra nhân vật chính đang thực hiện các pha nguy hiểm, ngay cả khi đó là diễn viên đóng thế mạo hiểm mạng sống của mình. Ngoài ra, việc tạo video đa ngôn ngữ sẽ dễ dàng hơn bao giờ hết.

Chuyển sang những cái xấu, tiếc là chúng có rất nhiều. Trên thực tế, ứng dụng deepfake lớn nhất từ trước đến nay có 96% (theo báo cáo Deeptrace này) hoạt động trong ngành khiêu dâm để hoán đổi khuôn mặt người nổi tiếng lấy diễn viên khiêu dâm.

Ngoài ra, deepfake còn được dùng làm vũ khí chống lại những phụ nữ không phải người nổi tiếng “chuẩn mực”. Thông thường, những nạn nhân như vậy có ảnh hoặc video chất lượng cao trên hồ sơ mạng xã hội của họ được sử dụng để tạo các tác phẩm deepfake.

Một ứng dụng đáng sợ khác là vishing, còn được gọi là lừa đảo bằng giọng nói. Trong một trường hợp như vậy, Giám đốc điều hành của một công ty ở Anh đã đưa 243.000 đô la theo lệnh của “Giám đốc điều hành” của công ty mẹ ở Đức, để rồi sau đó phát hiện ra đó thực sự là một cuộc điện thoại không có thật.

Nhưng nguy hiểm hơn nữa là một deepfake kích động chiến tranh hoặc yêu cầu đầu hàng. Trong nỗ lực cuối cùng, Tổng thống Ukraine Volodymyr Zelensky đã ra lệnh cho lực lượng và người dân của mình đầu hàng trong cuộc chiến đang diễn ra. Tuy nhiên, một đoạn video dở tệ đã tiết lộ sự thật lần này.

Tóm lại, có rất nhiều ứng dụng deepfake hiện có và đây mới chỉ là bước khởi đầu.

Điều này đưa chúng ta đến câu hỏi trị giá hàng triệu đô la…

Deepfake có hợp pháp không?

Phần lớn phụ thuộc vào chính quyền địa phương. Mặc dù các luật được xác định rõ ràng, bao gồm những gì được phép và những gì không được phép, vẫn chưa xuất hiện.

Tuy nhiên, rõ ràng là nó phụ thuộc vào mục đích bạn đang sử dụng deepfake. Hầu như không có hại gì nếu bạn có ý định giải trí hoặc giáo dục bất kỳ ai mà không ảnh hưởng đến mục đích trao đổi.

Mặt khác, các ứng dụng độc hại phải bị pháp luật trừng phạt, bất kể khu vực pháp lý. Một lĩnh vực màu xám khác là vi phạm bản quyền, cần được xem xét kỹ lưỡng.

Tuy nhiên, một lần nữa, bạn nên kiểm tra với chính quyền địa phương về việc sử dụng deepfake hợp pháp.

Hãy để ý!

Deepfkaes sử dụng trí tuệ nhân tạo để buộc bất cứ ai phải nói điều gì đó.

Đừng tin bất cứ điều gì bạn thấy trên internet là lời khuyên đầu tiên chúng ta nên làm theo. Có rất nhiều thông tin sai lệch và hiệu quả của nó ngày càng tăng lên.

Và vì việc tạo chúng sẽ ngày càng dễ dàng hơn nên đã đến lúc chúng ta học cách nhận biết các tác phẩm sâu.

Mục lục

chúng de Deepfake gì la Làm Nao tạo the va

Deepfake là gì và làm thế nào để tạo ra chúng?