▷ ChatGPT giúp nhà nghiên cứu trốn tránh bảo mật AI

Ngày nay, bạn có thể làm được rất nhiều việc với các mô hình ngôn ngữ, chẳng hạn như giúp bạn trong công việc hàng ngày hoặc đánh lừa các hệ thống AI khác.

Nicholas Carlini, một nhà nghiên cứu trong dự án Deep Mind của Google, đã cố gắng chứng minh rằng hệ thống bảo mật AI có sai sót trong một thời gian. Để cho thấy AI-Guardian, một hệ thống bảo mật có thể được tích hợp thành mô hình, có thể bị lừa như thế nào, Carlini đã nhờ ChatGPT tư vấn. Bài nghiên cứu của Carlini “Khai thác hỗ trợ LLM của AI Guardian” không chỉ mô tả cách AI-Guardian dành cho kẻ ngốc có thể được tổ chức, nhưng ChatGPT cũng là một trợ giúp quan trọng để có được câu trả lời.

Công cụ đã bị bẻ khóa, AI-Guardian, chủ yếu được sử dụng để phát hiện hành vi thao túng hình ảnh. Người ta thường biết rằng các hệ thống phân loại hình ảnh nói riêng gặp khó khăn với đầu vào sai. Ví dụ: bạn chỉ có thể thực hiện một số thay đổi đối với ảnh có biển báo giao thông – vuốt sang đây và ở đó, một vài pixel có màu khác… – để đảm bảo rằng hệ thống AI không nhìn thấy biển báo giao thông. Tất nhiên: đó là một thảm họa đối với xe tự lái và cũng là lý do tại sao một hệ thống như AI-Guardian được tạo ra.

Người bảo vệ AI

AI-Guardian được phát triển bởi Hon Zhu, Shengzhi Zhang và Kay Chen và được đề xuất vào năm 2023. Do đó, công cụ này phải phát hiện khi nào hình ảnh bị giả mạo để có thể bảo vệ hệ thống tự lái và các hệ thống khác khỏi hình ảnh giả. Một hệ thống như vậy sử dụng mọi cách để biết khi nào một hình ảnh bị giả mạo – và biết cách tự bảo vệ mình khỏi điều đó. Đó là lý do tại sao những hình ảnh có sự không hoàn hảo và tạo tác ‘đáng ngờ’ thường bị AI-Guardian từ chối: chúng sẽ làm giảm khả năng sử dụng các hình ảnh đã được sửa đổi.

Hệ thống như vậy luôn sử dụng cách tiếp cận có hệ thống để xác định hình ảnh nào có thể không được sử dụng. Nói cách khác, có một số yếu tố nhất định khiến hệ thống cho rằng “đây là giả”. Nicholas Carlini và ChatGPT đã theo dõi những yếu tố đó bằng cách hiển thị những hình ảnh hơi khác nhau cho AI Guardian mỗi lần. Từng pixel một, thứ gì đó đã được điều chỉnh cho hình ảnh, cho đến khi nhà nghiên cứu có thể xác định chính xác những gì hệ thống nhận ra. Cuối cùng, bằng cách sử dụng tập lệnh Python tạo ChatGPT, hệ thống bảo mật có thể bị đánh lừa.

Khó đạt được

Các nhà nghiên cứu và phát triển của AI-Guardian chỉ ra rằng việc hack như vậy khó xảy ra hơn nhiều trong đời thực. Carlini có quyền truy cập vào một số dữ liệu quan trọng trong hệ thống, điều này cho phép anh thực hiện cách tiếp cận tập trung hơn. Tuy nhiên, điều đó không phải lúc nào cũng có thể thực hiện được: ‘vectơ chắc chắn’, một trong những dữ liệu mà Carlini có thể sử dụng, thường những kẻ tấn công không thể tìm thấy.

Tuy nhiên, bản crack AI-Guardian cho thấy khả năng của AI là rất sâu rộng. Do đó, Carlini rất hào hứng với nghiên cứu tiếp theo của mình và về vai trò của chatbot trong đó. Chắc chắn các nhiệm vụ lặp đi lặp lại có thể được GPT hoàn thành thành công. Các nhiệm vụ khác sẽ khó khăn hơn: chúng đòi hỏi ngày càng nhiều kiến thức về miền cụ thể hơn ChatGPT sở hữu. Do đó, hiện tại, nhà nghiên cứu thực sự cần phải giám sát AI.

Bài viết nổi bật OpenAI tạo ra GPT-4-API có sẵn công khai, một số API đang biến mất

ChatGPT giúp nhà nghiên cứu trốn tránh bảo mật AI

Người bảo vệ AI

Khó đạt được

Khuyến Khích: