▷ Google cho biết thật tốt khi chặn một số tài nguyên bên ngoài

Trong một lần mở Office Office Office gần đây, Martin Splitt của Google đã trả lời một câu hỏi về việc chặn các tài nguyên CSS và CSS bên ngoài. Câu hỏi đặt ra là liệu việc chặn tài nguyên có khiến trang web mất thứ hạng hay không.

Nhưng có một nếp nhăn trong câu hỏi đã được hỏi …

JavaScript và CSS bị chặn có thể ảnh hưởng đến thứ hạng

Khóa các tệp JavaScript và CSS có thể gây ra sự cố phân loại trong một số trường hợp. Một trong những lý do là Google cần một số tệp này để hiển thị trang web và xác định xem nó có tương thích với thiết bị di động hay không.

Một trang phát triển chính thức của Google cho biết điều này:

"Để hiển thị và lập chỉ mục tối ưu, luôn cho phép Googlebot truy cập các tệp JavaScript, CSS và hình ảnh được sử dụng bởi trang web của bạn để Googlebot có thể xem trang web của bạn như một người dùng trung bình.

Nếu tệp robot.txt của trang web của bạn không cho phép các tài sản này được theo dõi, nó sẽ trực tiếp làm hỏng việc thuật toán của chúng tôi xử lý và lập chỉ mục nội dung tốt như thế nào. Điều này có thể dẫn đến xếp hạng dưới tối ưu. "

Khóa JavaScript và CSS bên ngoài

Bất cứ ai đặt câu hỏi đều có lý do chính đáng để lo lắng về cách Google có thể phản hồi để chặn các tài nguyên bên ngoài.

Vấn đề:

"Nếu bạn sử dụng robot.txt để chặn JS hoặc CSS trong các tệp JS / tệp CSS bên ngoài trong một tên miền khác hoặc nếu một tên miền khác chặn chúng, người dùng sẽ thấy những thứ khác ngoài Googlebot, phải không?

Google có nghi ngờ loại trang này và giảm nó không?

Martin Splitt của Google đã trả lời một cách an toàn:

"Không, chúng tôi sẽ không tải xuống bất cứ thứ gì. Nó không che giấu. Ẩn rất cụ thể có nghĩa là lừa dối người dùng.

Chỉ vì chúng tôi không thể thấy nội dung không nhất thiết có nghĩa là bạn muốn đánh lừa người dùng. "

Che giấu là một thủ thuật mà những kẻ gửi thư rác sử dụng để hiển thị một bộ nội dung cho Google để lừa Google xếp hạng và hiển thị một trang web hoàn toàn khác cho người dùng, chẳng hạn như vi-rút hoặc trang web chứa spam.

Che giấu cũng là một cách để ngăn Google thu thập dữ liệu URL mà các nhà xuất bản không muốn Google nhìn thấy, chẳng hạn như các liên kết được liên kết.

Câu trả lời của Martin xuất phát từ hướng liệu việc chặn tài nguyên bên ngoài sẽ được coi là vỏ bọc và câu trả lời của anh là không.

Làm thế nào để chặn tài nguyên bên ngoài có thể có vấn đề

Martin tiếp tục mô tả cách chặn tài nguyên bên ngoài có thể là một vấn đề:

"Vẫn có khả năng có vấn đề nếu nội dung của bạn chỉ được hiển thị khi chúng tôi có thể nhận được các tài nguyên này và chúng tôi không thấy nội dung của HTML được hiển thị vì nội dung đó bị chặn bởi tệp robots.txt.

Vì vậy, chúng tôi không thể lập chỉ mục nó. Nếu nội dung bị thiếu, chúng tôi không thể lập chỉ mục cho nó. "

Các công cụ kiểm tra của Google sẽ tiết lộ sự cố

Martin sau đó cho thấy cách một biên tập viên có thể chẩn đoán nếu khóa tài nguyên có vấn đề.

"Do đó, rất đáng để thử các công cụ kiểm tra của chúng tôi để xem liệu nội dung bạn muốn xem trên trang có thực sự hiển thị trên trang hay không, mặc dù một số tài nguyên JavaScript hoặc CSS có thể là robot.

Nhưng nói chung, việc robot hóa tài nguyên JavaScript hoặc CSS không phải là vấn đề. Nó có thể là một vấn đề nếu chúng ta không thể xem nội dung, nhưng nó tốt từ quan điểm che đậy, nó không phải là một trang bìa. "

Ông nói rõ hơn:

"Nếu JavaScript tải nội dung và chúng tôi không thể tải JavaScript đó vì nó là robot, chúng tôi sẽ không thấy nội dung đó và nó có khả năng gây ra sự cố." Nhưng nếu đó là một bản nâng cấp như hộp trò chuyện hoặc tiện ích bình luận … thì đó không phải là vấn đề. "

Biên tập viên hỏi một câu hỏi mẹo

Đó là một câu trả lời thú vị rằng bạn có thể chặn các tài nguyên bên ngoài được liên kết với hộp trò chuyện hoặc tiện ích bình luận. Chặn các tài nguyên này có thể hữu ích, ví dụ: nếu nó giúp tăng tốc kết xuất trang web cho Google, nhưng …

Nhưng có một nếp nhăn nhẹ cho câu hỏi: Bạn không thể chặn tài nguyên bên ngoài (trong một tên miền khác) bằng robot.txt.

Câu hỏi ban đầu là hai lần.

Đây là phần có vấn đề đầu tiên:

"Nếu bạn sử dụng robot.txt để chặn JS hoặc CSS trong các tệp JS / tệp CSS bên ngoài trong một miền khác …"

Đó là một phần của câu hỏi là không thể đạt được với Robots.txt.

Trang phát triển Google đề cập đến chủ đề này về tệp robot.txt:

"Nó hợp lệ cho tất cả các tệp trong tất cả các thư mục con của cùng một máy chủ, giao thức và số cổng."

Điều bị bỏ qua là robot.txt chỉ sử dụng các URL tương đối, không phải URL tuyệt đối (ngoại trừ trang web của Sơ đồ trang web).

URL tương đối có nghĩa là URL "tương đối" với trang của liên kết.

Trong tệp HTACCESS, tất cả các URL trông như thế này:

/ File-1/ example

Và do đó, một URL tuyệt đối trông giống như:

https://www.example.com

Vì vậy, nếu bạn không thể sử dụng một URL tuyệt đối trong tệp robot.txt của mình, bạn không thể chặn tài nguyên bên ngoài bằng tệp robot.txt.

Phần thứ hai của câu hỏi là đúng về mặt kỹ thuật:

"… Hoặc nếu một tên miền khác chặn chúng, người dùng sẽ thấy những thứ khác ngoài Googlebot, phải không? Google sẽ không tin loại trang này và hạ cấp chúng?

Tài nguyên bên ngoài thường bị chặn bởi các trang web khác. Vì vậy, câu hỏi và câu trả lời có ý nghĩa hơn từ hướng đó.

Martin Splitt cho biết việc chặn các tài nguyên bên ngoài này không bao gồm. Tuyên bố này là đúng nếu bạn không sử dụng Robots.txt.

Đó có lẽ là những gì Martin đã đề cập, nhưng …

Nhưng vấn đề cụ thể là về robot.txt.

Trong thế giới thực, nếu bạn muốn chặn tài nguyên bên ngoài bằng tệp robot.txt, nhiều người sử dụng kỹ thuật che giấu.

Che đậy có một danh tiếng xấu và vì lý do tốt. Nhưng sự thật là không phải tất cả các phạm vi bảo hiểm là xấu. Ví dụ, Yoast có một hướng dẫn về liên kết chẳng hạn.

Một số hình thức che giấu nhất định có thể là một cách để chặn các tài nguyên không liên quan đến cách hiển thị trang và phù hợp với những gì Google khuyến nghị.

Kiểm tra giờ làm việc của Google JavaScript SEO tại đây:

Mục lục

Google cho biết thật tốt khi chặn một số tài nguyên bên ngoài