▷ Nhân bản giọng nói AI: rủi ro ngày càng tăng của tin tức giả mạo và lừa đảo

Năm 2016, Adobe công bố sự xuất hiện của VoCo, phần mềm giả mạo âm thanh đầu tiên. Được giới thiệu rầm rộ tại Adobe MAX 2016, giải pháp này được mô tả là “Voice Photoshop”. Cần 20 phút nói để tổng hợp một giọng nói. Nếu công cụ này khơi dậy sự say mê về tiến bộ công nghệ mà nó đại diện thì sự phản đối kịch liệt đầu tiên sẽ sớm xuất hiện. Thật vậy, một số người lo ngại sự gia tăng của các vụ lừa đảo, tin tức giả mạo hoặc giả mạo giọng nói. Tiến sĩ Eddy Borges Rey, lúc đó là giảng viên truyền thông và công nghệ tại Đại học Stirling (Scotland), giải thích với BBC :

Có vẻ như các lập trình viên tại Adobe đã quá phấn khích khi tạo ra thứ gì đó sáng tạo như trình điều khiển giọng nói và bỏ qua những tình huống khó xử về mặt đạo đức do nó có khả năng bị lạm dụng.

Kể từ đó, trí tuệ nhân tạo tổng hợp đã đi được một chặng đường dài và ngày nay dường như đang phát triển với tốc độ chóng mặt về văn bản, hình ảnh và âm thanh. Còn việc nhân bản giọng nói thì sao? Nhìn lại những tiến bộ trong lĩnh vực này và những rủi ro đang nổi lên.

Nhân bản giọng nói: công nghệ ngày càng phát triển

Bất chấp sự nhiệt tình của Adobe, dự án VoCo dường như đã bị bỏ rơi: công ty đã không thông báo về nó kể từ năm 2019. Tuy nhiên, những người chơi khác đã lợi dụng lỗ hổng do Adobe mở ra để phát triển các giải pháp của riêng họ. Năm 2017, công ty khởi nghiệp LyreBird đã thành công trong việc nhân bản giọng nói của Barack Obama và Donald Trump, để tạo ra cuộc trò chuyện từ đầu giữa Tổng thống thứ 44 và 45 của Hoa Kỳ. Nếu âm thanh đăng trên SoundCloud bị thay đổi thì giọng nói của hai nguyên thủ quốc gia hoàn toàn có thể nhận ra được.

Do đó, các công cụ này đã tiếp tục được cải tiến. Vào tháng 1 năm 2023, phần mềm ElevenLabs do một cựu kỹ sư của Google tạo ra đã được ra mắt ở phiên bản beta. Chương trình, có sẵn trực tuyến, có thể sao chép bất kỳ giọng nói nào từ một đoạn trích chỉ trong một phút và sau đó đọc thuộc lòng văn bản với kết quả thực tế đến kinh ngạc, như bạn có thể thấy bên dưới.

Nhưng những gã khổng lồ công nghệ cũng quan tâm đến những công nghệ này. Microsoft đang nghiên cứu mô hình nhân bản giọng nói AI có tên VALL-E. Công cụ này, được công bố vào tháng 1 năm 2023, có thể duy trì tông màu và cảm xúc của mô hình, khiến việc phân biệt giữa AI và thực tế càng khó hơn. Về phía anh, Apple muốn cung cấp một công nghệ tương tự, Giọng nói cá nhân, nhằm hỗ trợ khả năng tiếp cận. Công cụ này cho phép những người có nguy cơ mất khả năng nói (do vấn đề sức khỏe như bệnh Charcot) tổng hợp giọng nói của họ bằng cách đọc một loạt câu trong khoảng mười lăm phút. Nhờ Live Speech, sau đó họ có thể sử dụng điện thoại thông minh của mình để nhập văn bản họ chọn và nói nó bằng giọng nói của chính họ.

Bằng chứng về mức độ tiến bộ của các công nghệ này: một nghiên cứu gần đây được thực hiện bởi các nhà nghiên cứu bảo mật của McAfee chứng minh rằng, từ một chuỗi âm thanh của 3 giây, các công cụ sao chép giọng nói AI có thể tạo ra sự trùng khớp giọng nói 85%. Một vài tệp âm thanh là đủ để đạt được sự trùng khớp 95%.

Nguy cơ lạm dụng

Như thường lệ, khi công nghệ phát triển, các mục đích sử dụng độc hại sẽ xuất hiện: đây đặc biệt là trường hợp của trình tạo hình ảnh AI hoặc trình tạo văn bản như ChatGPT. Do đó, sự xuất hiện của việc nhân bản giọng nói làm nảy sinh nhiều mối đe dọa khác nhau, chẳng hạn như sự phát triển của các hình thức tin tức giả mạo và lừa đảo mới hoặc việc sử dụng giọng nói của các nghệ sĩ mà không có sự đồng ý của họ.

Thậm chí còn có tin giả thực tế hơn

Ngay sau khi phát hành, ElevenLabs đã trở thành chủ đề bị tấn công một cách tồi tệ: người dùng đã sử dụng giọng nói của nữ diễn viên Emma Watson để bắt cô đọc các đoạn trích từ Mein Kampf. Do đó, việc nhân bản giọng nói gây nguy hiểm cho thông tin vì nó có thể cho phép phát triển các âm thanh giả mạo sâu nhắm vào các nhân vật công cộng hoặc chính trị. Cuộc bầu cử tổng thống năm 2020 ở Hoa Kỳ đáng chú ý đã chứng kiến sự xuất hiện của một số lượng lớn các thủ thuật âm thanh và video nhằm mục đích gây ảnh hưởng đến lá phiếu.

Hơn nữa, sự phát triển của AI tổng hợp được thiết lập trên một số loại nội dung (văn bản, âm thanh, video, hình ảnh), sự kết hợp của các công nghệ khác nhau mở ra triển vọng gần như không giới hạn cho việc làm sai lệch, như Marie Crappe, Trưởng bộ phận Dữ liệu tại Choose đã nhấn mạnh, tại một hội nghị gần đây được tổ chức như một phần của Web2day.

Sự phát triển của một loại lừa đảo mới

Tháng 4 năm ngoái, kênh truyền hình Mỹ Gia đình AZ chuyển lại lời khai của Jennifer DeStefano, mẹ của một gia đình Arizona là nạn nhân của một vụ lừa đảo. Qua điện thoại, người phụ nữ 40 tuổi nghe thấy giọng nói của cô con gái 15 tuổi gặp nạn, sau đó là tiếng kẻ bắt cóc đòi tiền chuộc. Trên thực tế, con gái cô vẫn an toàn và kẻ gian đã sử dụng trí tuệ nhân tạo để giả giọng nói của cô. Tuy nhiên, theo Jennifer DeStefano, sự khác biệt gần như là không thể:

Không bao giờ có bất kỳ câu hỏi nào về việc đó là ai. Đó hoàn toàn là giọng nói của anh ấy. Đó là sự thay đổi của anh ấy. Đó là cách cô ấy sẽ khóc.

Jennifer DeStefano không phải là người duy nhất bị lừa đảo nhân bản giọng nói. Ở Canada, một cặp vợ chồng đã nghỉ hưu cũng gặp phải vấn đề tương tự, theo báo cáo của Bưu điện Washington. Bị thuyết phục khi nghe giọng cháu trai qua điện thoại thông báo rằng họ đang bị giam giữ, ông bà đã chi số tiền 21.000 đô la trước khi nhận ra mình đã bị lừa. Họ không bao giờ có thể lấy lại được tiền.

Theo nghiên cứu của McAfee, những trường hợp này không phải là hiếm. Theo các chuyên gia phần mềm, cứ bốn người Pháp thì có một người đã phải đối mặt với một vụ lừa đảo nhân bản giọng nói bằng AI và 77% nạn nhân đã bị mất tiền. Một thống kê đáng lo ngại, cho thấy 56% người Pháp chia sẻ giọng nói của họ trực tuyến ít nhất một lần một tuần trên mạng xã hội, thông qua ghi chú âm thanh hoặc tin nhắn thoại.

Vấn đề bản quyền

Giống như trường hợp của các trình tạo hình ảnh trí tuệ nhân tạo, sử dụng hình ảnh do các nghệ sĩ thực sự tạo ra để đào tạo, các trình sao chép giọng nói phải sử dụng nội dung đã có sẵn để hoạt động. Do đó, chúng là mối đe dọa đối với các chuyên gia lồng tiếng (ví dụ như ca sĩ hoặc người lồng tiếng).

Trong ngành công nghiệp âm nhạc, âm nhạc đầu tiên do AI tạo ra đã nhanh chóng được nhân rộng trên web. Tháng Tư năm ngoái, một bài hát tên là Trái tim trên tay áo của tôi đã được một nghệ sĩ ẩn danh đăng lên TikTok. Âm thanh có sự góp giọng của Drake và The Weeknd nhờ sử dụng trí tuệ nhân tạo. Sau khi đạt 15 triệu lượt xem trong 48 giờ, ca khúc đã bị gỡ xuống theo yêu cầu của công ty thu âm quản lý hai nhạc sĩ. Nhưng về lâu dài, bản thân các nghệ sĩ có thể sử dụng những giải pháp này. Vào đầu năm, David Guetta đã xuất bản trên tài khoản của mình Twitter một video có tiêu đề sử dụng giọng nói của Eminem (được đổi tên theo dịp này Emin-AI-em), được tạo ra bởi trí tuệ nhân tạo. Nhận thức được giới hạn đạo đức của kiểu sử dụng này, DJ vội vàng tuyên bố rằng tiêu đề này sẽ không được sử dụng cho mục đích thương mại.

Hãy để tôi giới thiệu cho bạn… Emin-AI-em 👀 pic.twitter.com/48prbMIBtv
– David Guetta (@davidguetta) Tháng hai 32023

Những rào cản pháp lý có thể xảy ra là gì?

Đạo luật IA: luật quy định việc sử dụng AI

Đạo luật IA, luật pháp châu Âu hiện đang được đàm phán giữa các quốc gia thành viên EU, nhằm mục đích điều chỉnh việc sử dụng trí tuệ nhân tạo. Mặc dù dự án không nhắm mục tiêu cụ thể đến các công cụ nhân bản giọng nói trí tuệ nhân tạo, nhưng một số biện pháp nhất định sẽ được áp dụng cho các nền tảng và người dùng, bao gồm những điều sau:

Nghĩa vụ xác định xem nội dung có phải do AI tạo ra hay không, Nghĩa vụ chỉ ra dữ liệu có bản quyền được sử dụng để đào tạo mô hình, Nghĩa vụ đánh giá và giảm thiểu rủi ro tiềm ẩn (trong các lĩnh vực sức khỏe, an ninh, quyền cơ bản, môi trường, dân chủ và pháp quyền), Cung cấp các biện pháp bảo vệ chống lại việc tạo ra nội dung bất hợp pháp, Cung cấp trợ giúp trong việc phân biệt hình ảnh thật với hình ảnh giả (người ta có thể tưởng tượng một cách hợp pháp rằng quy tắc này có thể được điều chỉnh cho phù hợp với nội dung âm thanh), Nghĩa vụ của người dùng là chỉ định rằng nội dung được tạo thông qua AI.

Những biện pháp bảo vệ nào cho nghệ sĩ?

Cho đến nay, vẫn chưa có nhiều quy định được thiết lập liên quan đến bản quyền, đặc biệt đối với các nghệ sĩ. Như vậy, tập thể Nghệ sĩ lồng tiếng thống nhất (UVA), nơi tập hợp nhiều hiệp hội nghệ sĩ khác nhau trên khắp thế giới (chủ yếu từ Liên minh Châu Âu), muốn nêu bật vấn đề này bằng cách ký một bản tuyên ngôn dành cho những người ra quyết định ở Châu Âu. Điều này đòi hỏi phải có quy định nghiêm ngặt về việc sử dụng giọng nói của các công cụ AI tổng hợp và đặc biệt là sự đồng ý rõ ràng và có hệ thống của người biểu diễn giọng nói được ghi âm.

Mục lục

Nhân bản giọng nói AI: rủi ro ngày càng tăng của tin tức giả mạo và lừa đảo