Tin tức và phân tích của tất cả các thiết bị di động

Google muốn hệ thống từ chối thu thập dữ liệu

Google đề xuất một hệ thống chọn không tham gia mà nhà xuất bản có thể sử dụng để bảo vệ trang web của họ khỏi bị thu thập dữ liệu.

Các hệ thống AI như Bard của Google hay ChatGPT của OpenAI không chỉ trở nên thông minh hơn. Các bot sử dụng kiến ​​thức của chúng để giúp bạn thực hiện nhiệm vụ hoặc bắt đầu cuộc trò chuyện với bạn. Kiến thức đó phần lớn được thu thập bằng cách lùng sục trên internet và cung cấp cho các bot AI tất cả những kiến ​​thức có thể tìm thấy. Quá trình này, được gọi là ‘cạo dữ liệu’ hoặc ‘cạo’, diễn ra tự động và thường bỏ qua tài liệu có bản quyền. Google muốn các trang web bây giờ khả năng để tự bảo vệ mình khỏi bị ‘cào’.

OpenAI và Google đã sử dụng các tài liệu có sẵn công khai để đào tạo bot của họ. Nói cách khác, cả hai công ty đều lùng sục trên Internet để tìm tài liệu đào tạo cho hệ thống AI của họ. Google khẳng định rằng điều đó không sai: nó liên quan đến thông tin có sẵn cho tất cả mọi người và do đó hệ thống AI cũng phải có thể truy cập được. Tuy nhiên, những người phản đối cho rằng việc thu thập dữ liệu là bất hợp pháp. Những người phản đối nói rằng việc thu thập dữ liệu hàng loạt là vi phạm quyền riêng tư.

Ngoài ra, người ta cũng lo ngại rằng phương pháp cạo sẽ tạo cơ hội cho đạo văn. hệ thống AI phối lại đúng như vậy, tất cả thông tin và ngôn ngữ họ gặp trên internet. Vì vậy rất có thể một hệ thống AI như Bing hay Bard sớm hay muộn cũng sẽ đạo văn. Do đó, các trang web tin tức và các nhà xuất bản khác không muốn xem chatbot.

Chọn không thu thập dữ liệu

Google hiện đang đưa ra một đề xuất nhằm xoa dịu mối lo ngại của các trang web. Để thực hiện điều này, nó đề xuất một hệ thống thực sự đã được sử dụng ngày nay: quản trị viên web có thể loại bỏ một số trình thu thập thông tin nhất định (lập chỉ mục trang web cho các công cụ tìm kiếm) thông qua tệp robots.txt. Điều này có thể áp dụng cho toàn bộ trang web cũng như cho các phần của trang web. Google muốn thực hiện một cách tiếp cận tương tự để thu thập dữ liệu cho các mô hình AI.

Google không phải là công ty đầu tiên làm điều này: OpenAI đã ra mắt GPTBot vào tuần trước. GPTBot là một trình thu thập dữ liệu web chuyên tìm kiếm trên Internet để giúp ChatGPT thông minh hơn. Sự tiết lộ về trình thu thập thông tin ngay lập tức đi kèm với lời giải thích dành cho quản trị viên web: cách giữ trình thu thập thông tin khỏi trang web thông qua tệp robots.txt.

Đáng chú ý là cả hai công ty đều độc thân chọn không tham giađưa ra những cơ hội. Bạn có muốn sử dụng tài liệu có bản quyền? Sau đó, bạn thường phải xin phép rõ ràng. Google và OpenAI hoàn toàn đảo ngược cách xử lý bản quyền. Các công ty cho rằng họ có quyền, trừ khi các trang web rút lại quyền đó một cách rõ ràng.