Tin tức và phân tích của tất cả các thiết bị di động

Cách ngăn OpenAI ChatGPT GPTBot lấy nội dung trang web của bạn

cách ngăn chặn OpenAI GPTBot thu thập dữ liệu trang web của bạn

OpenAI, một phòng thí nghiệm trí tuệ nhân tạo nổi tiếng, gần đây đã tiết lộ thêm thông tin về trình thu thập dữ liệu web tiên tiến, GPTBot, được thiết kế đặc biệt để duyệt qua các trang web và trích xuất dữ liệu quan trọng. Dữ liệu được trích xuất này sau đó đóng vai trò then chốt trong việc nâng cao các mô hình AI trong tương lai, chẳng hạn như ChatGPT 5 và các mô hình AI trong tương lai, vốn phụ thuộc nhiều vào lượng dữ liệu khổng lồ để có hiệu suất và chức năng tốt hơn.

OpenAI giải thích rằng các trang web được GPTBot thu thập dữ liệu “” và nâng cao hơn nữa các mô hình LLM mới. Bằng cách cho phép GPTBot sàng lọc trang web của bạn, bạn có thể vô tình góp phần phát triển các mô hình AI chính xác hơn đi kèm với các khả năng chung nâng cao và các biện pháp an toàn cao hơn.

Dữ liệu nhạy cảm và trang web có tường phí

Hiểu được những lo ngại về tính nhạy cảm và quyền riêng tư xung quanh dữ liệu web, OpenAI nhấn mạnh rằng họ đã triển khai các bộ lọc nghiêm ngặt để bảo vệ khỏi mọi vi phạm. Các trang web được bảo vệ bởi tường phí hoặc những trang web thu thập thông tin nhận dạng cá nhân sẽ nằm ngoài tầm với của GPTBot. Hơn nữa, mọi nội dung vi phạm chính sách của OpenAI sẽ bị cấm đối với trình thu thập dữ liệu web.

Tuy nhiên, sự phát triển đầy hứa hẹn này đặt ra một vấn đề phức tạp. Tính khả thi mới được phát hiện này về khả năng ngăn chặn các mẩu tin đào tạo của OpenAI, nếu được thừa nhận và tôn trọng, dường như đã đến hơi muộn để ảnh hưởng đến dữ liệu đào tạo hiện tại cho các mô hình như ChatGPT hoặc GPT-4. Những mô hình này đã được đào tạo với dữ liệu được thu thập một cách lén lút mà không có bất kỳ thông báo nào trước đó nhiều năm trước.

ví dụ, OpenAI có ngày đối chiếu đến tháng 9 năm 2021, tượng trưng cho giới hạn “kiến thức” hiện tại đối với các mô hình ngôn ngữ của nó. Mặc dù các mô hình trước đó đã được đào tạo mà không cân nhắc đến sự đồng ý của trang web, cách tiếp cận mới của OpenAI với GPTBot có thể cho thấy sự thay đổi theo hướng tăng cường tính minh bạch và tôn trọng các ưu tiên nguồn dữ liệu trong tương lai. Với cách tiếp cận thận trọng và an toàn hơn, tương lai của AI dường như đang đảm bảo sự cân bằng giữa tiến bộ công nghệ và bảo vệ quyền riêng tư.

Ngăn OpenAI lấy dữ liệu trang web của bạn

Tuy nhiên, OpenAI hiểu rằng không phải tất cả chủ sở hữu trang web đều muốn GPTBot có thể truy cập được nội dung của họ. Vì vậy, họ đã cung cấp hướng dẫn về cách không cho phép GPTBot truy cập trang web của bạn. Điều này có thể đạt được bằng cách thêm mã thông báo GPTBot vào trang web của bạn robot.txt tập tin với các dòng sau:

Tác nhân người dùng: GPTBot
vô hiệu hóa: /

Đối với những người muốn tùy chỉnh quyền truy cập của GPTBot, chỉ cho phép nó truy cập các phần cụ thể trên trang web của bạn, bạn có thể sửa đổi tệp robots.txt của trang web của mình như sau:

Tác nhân người dùng: GPTBot
cho phép: /thư mục-1/ /
vô hiệu hóa: /thư mục-2/ /

Trình thu thập thông tin của OpenAI, bao gồm GPTBot, thực hiện lệnh gọi đến các trang web từ những khối địa chỉ IP cụ thể. Những điều này hiện bao gồm có thể thay đổi sau này:

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40,83.2.64/28

Những lo ngại về quyền riêng tư và dữ liệu của GPTBot

Cách xác định OpenAI GPTBot trong nhật ký và phân tích của bạn

GPTBot có thể được nhận dạng bằng mã thông báo tác nhân người dùng duy nhất và chuỗi tác nhân người dùng đầy đủ. Mã thông báo tác nhân người dùng chỉ đơn giản là:

Mã thông báo tác nhân người dùng: GPTBot
Chuỗi tác nhân người dùng đầy đủ: Mozilla/5.0 AppleWebKit/537.36 (KHTML, như Gecko; tương thích; GPTBot/1.0; +https://openai.com/gptbot)

Chức năng chính của GPTBot là thu thập dữ liệu các trang web, sau đó có thể được sử dụng để tinh chỉnh và cải thiện các mô hình AI trong tương lai. Điều quan trọng cần lưu ý là GPTBot được thiết kế chú trọng đến quyền riêng tư và bảo mật. Nó lọc ra các nguồn yêu cầu quyền truy cập tường phí, thu thập thông tin nhận dạng cá nhân (PII) hoặc chứa văn bản vi phạm chính sách của OpenAI. Bằng cách cho phép GPTBot truy cập trang web của bạn, bạn đang góp phần phát triển các mô hình AI, nâng cao độ chính xác, khả năng chung và tính an toàn của chúng.

GPTBot là một công cụ mạnh mẽ trong bối cảnh AI, được thiết kế để cải thiện các mô hình trong tương lai đồng thời tôn trọng quyền riêng tư của người dùng và các hạn chế về nội dung. Cho dù bạn chọn cho phép hay không cho phép nó truy cập vào trang web của mình, giờ đây bạn đều có kiến ​​thức để đưa ra quyết định sáng suốt.

Để biết thêm chi tiết về cách ngăn bot Trò chuyện OpenAI ChatGPT truy cập vào trang web của bạn và thu thập nội dung của bạn để tạo các mô hình AI trong tương lai, hãy truy cập vào trang web chính thức của OpenAI nơi có thêm thông tin chi tiết.

Tuyên bố từ chối trách nhiệm: Một số bài viết của chúng tôi bao gồm các liên kết liên kết. Nếu bạn mua thứ gì đó thông qua một trong những liên kết này, APS Blog có thể kiếm được hoa hồng liên kết. Tìm hiểu về Chính sách tiết lộ của chúng tôi.