Tin tức và phân tích của tất cả các thiết bị di động

Cách chặn trình thu thập dữ liệu OpenAI quét trang web của bạn

Mặc dù người dùng yêu thích ChatGPT vì lượng thông tin khổng lồ mà nó hiện lưu trữ, nhưng điều tương tự lại không xảy ra với chủ sở hữu trang web.

ChatGPT OpenAI sử dụng trình thu thập thông tin để thu thập thông tin trang web, nhưng nếu bạn sở hữu một trang web và không muốn trình thu thập thông tin OpenAI truy cập vào trang web của mình thì sau đây là một số điều bạn có thể làm để ngăn điều đó xảy ra.

Lập chỉ mục OpenAI hoạt động như thế nào?

Trình thu thập thông tin web (còn được gọi là nhện hoặc bot công cụ tìm kiếm) là một chương trình tự động quét Internet để tìm thông tin. Sau đó, nó biên dịch thông tin này theo cách giúp công cụ tìm kiếm dễ dàng truy cập nó.

Trình thu thập thông tin thu thập dữ liệu mọi trang của mọi URL có liên quan, thường tập trung vào các trang web phù hợp hơn với cụm từ tìm kiếm. Ví dụ: giả sử bạn tìm kiếm một lỗi hệ thống cụ thể trên Google Windows. Trình thu thập thông tin trong công cụ tìm kiếm của bạn sẽ quét tất cả các URL từ các trang web mà nó cho là đáng tin cậy hơn về lỗi hệ thống Windows.

Trình thu thập dữ liệu OpenAI được gọi là GPTBot và theo Tài liệu OpenAI, việc cấp quyền truy cập GPTBot vào trang web của bạn có thể giúp đào tạo mô hình AI trở nên an toàn và chính xác hơn, thậm chí có thể giúp mở rộng khả năng của mô hình AI.

Cách ngăn OpenAI thu thập dữ liệu trang web của bạn

Giống như hầu hết các trình thu thập thông tin khác, quyền truy cập của GPTBot vào trang web của bạn có thể bị chặn bằng cách sửa đổi giao thức robots.txt của trang web (còn được gọi là giao thức loại trừ robot). Tệp .txt này được lưu trữ trên máy chủ trang web của bạn và kiểm soát cách hoạt động của trình thu thập thông tin và các chương trình tự động khác trên trang web của bạn.

Dưới đây là danh sách ngắn các khả năng của robot.txt:

  • Nó có thể chặn hoàn toàn GPTBot truy cập vào một trang web.
  • Nó chỉ có thể chặn GPTBot truy cập một số trang nhất định từ URL.
  • Nó có thể cho GPTBot biết liên kết nào nó có thể theo dõi và liên kết nào không thể.

Dưới đây là cách kiểm soát những gì GPTBot có thể thực hiện trên trang web của bạn:

Chặn hoàn toàn GPTBot truy cập vào trang web của bạn

  • Thiết lập tệp robot.txt rồi chỉnh sửa tệp đó bằng bất kỳ công cụ chỉnh sửa văn bản nào.
  • Thêm GPTBot vào tệp robots.txt trên trang web của bạn như sau:
  •  User-agent: GPTBot
    Disallow: /

    Chỉ chặn quyền truy cập GTPBot vào một số trang nhất định

  • Thiết lập tệp robot.txt, sau đó chỉnh sửa tệp đó bằng công cụ chỉnh sửa văn bản ưa thích của bạn.
  • Thêm GPTBot vào tệp robots.txt trên trang web của bạn như sau:
  •  User-agent: GPTBot
    Allow: /directory-1/
    Disallow: /directory-2/

    Tuy nhiên, xin lưu ý rằng việc thay đổi tệp robot.txt của bạn sẽ không có hiệu lực trở về trước và mọi thông tin mà GPTBot có thể đã thu thập từ trang web của bạn sẽ không thể phục hồi được.

    OpenAI cho phép chủ sở hữu trang web từ chối lập chỉ mục

    Kể từ khi trình thu thập thông tin được sử dụng để đào tạo các mô hình AI, chủ sở hữu trang web đã tìm cách giữ dữ liệu của họ ở chế độ riêng tư.

    Một số lo ngại rằng về cơ bản các mô hình AI đang đánh cắp công việc của họ và thậm chí còn cho rằng số lượt truy cập trang web ít hơn là do hiện tại người dùng đang nhận được thông tin mà không cần phải truy cập trang web của họ.

    Nói chung, việc bạn có muốn chặn hoàn toàn các chatbot AI quét trang web của mình hay không hoàn toàn là lựa chọn của bạn.