Tại sao kết quả tìm kiếm của Google bao gồm các trang không được phép trong robot.txt?

18

Tôi có một số trang trên trang web của mình mà tôi muốn tránh xa các công cụ tìm kiếm, vì vậy tôi không cho phép chúng trong robots.txttệp của mình như thế này:

User-Agent: *
Disallow: /email

Tuy nhiên, gần đây tôi nhận thấy rằng Google đôi khi vẫn trả về các liên kết đến các trang đó trong kết quả tìm kiếm của họ. Tại sao điều này xảy ra, và làm thế nào tôi có thể ngăn chặn nó?

Lý lịch:

Cách đây vài năm, tôi đã tạo một trang web đơn giản cho một câu lạc bộ mà một người họ hàng của tôi đã tham gia. Họ muốn có các liên kết email trên trang của họ, vì vậy, để thử và giữ cho các địa chỉ email đó không kết thúc quá nhiều danh sách thư rác, thay vì sử dụng các mailto:liên kết trực tiếp, tôi đã làm cho các liên kết đó trỏ đến một tập lệnh bẫy máy gặt đập / chuyển hướng địa chỉ đơn giản đang chạy trên trang web của riêng tôi. Tập lệnh này sẽ trả về chuyển hướng 301 đến mailto:URL thực tế hoặc, nếu nó phát hiện ra mẫu truy cập đáng ngờ, một trang chứa nhiều địa chỉ e-mail giả ngẫu nhiên và liên kết đến nhiều trang như vậy. Để giữ cho các bot tìm kiếm hợp pháp tránh khỏi bẫy, tôi thiết lập robots.txtquy tắc hiển thị ở trên, không cho phép toàn bộ không gian của cả các liên kết chuyển hướng hợp pháp và các trang bẫy.

Tuy nhiên, mới đây, một trong những người trong câu lạc bộ đã tìm kiếm tên riêng của Google và khá ngạc nhiên khi một trong những kết quả trên trang đầu tiên là một liên kết đến tập lệnh chuyển hướng, với một tiêu đề bao gồm địa chỉ email của họ được theo dõi bằng tên của tôi Tất nhiên, họ ngay lập tức gửi email cho tôi và muốn biết làm thế nào để lấy địa chỉ của họ ra khỏi chỉ mục của Google. Tôi cũng khá ngạc nhiên, vì tôi không biết rằng Google sẽ lập chỉ mục các URL như vậy, dường như vi phạm robots.txtquy tắc của tôi .

Tôi đã quản lý để gửi yêu cầu xóa tới Google và có vẻ như nó đã hoạt động, nhưng tôi muốn biết tại sao và làm thế nào Google vượt qua được robots.txtnhư thế của tôi và làm thế nào để đảm bảo rằng không có trang nào không được hiển thị trong đó kết quả tìm kiếm.

Thi thiên Tôi thực sự đã tìm ra một lời giải thích và giải pháp khả thi, mà tôi sẽ đăng bên dưới, trong khi chuẩn bị câu hỏi này, nhưng tôi nghĩ rằng dù sao tôi cũng sẽ hỏi nó trong trường hợp người khác có thể gặp vấn đề tương tự. Xin vui lòng gửi câu trả lời của riêng bạn. Tôi cũng muốn biết liệu các công cụ tìm kiếm khác có làm điều này không, và liệu các giải pháp tương tự có hoạt động với chúng không.

google-search robots.txt

— Ilmari Karonen
nguồn

1

"và cách Google phá vỡ robot.txt của tôi" Tôi đoán bạn đã biết điều này (hoặc làm thế nào bạn có thể thiết lập một trang web ở nơi đầu tiên) nhưng trong trường hợp một số kẻ lang thang vô dụng bằng cách ... Các robots.txttập tin giống như một dấu hiệu "Không xâm phạm" nhỏ bên cạnh đường lái xe của ai đó. Đó không phải là phép thuật, và (trừ khi khách truy cập tìm kiếm nó một cách rõ ràng) họ có thể đi lang thang trên tài sản của bạn mà không bị ảnh hưởng đôi chút bởi sự tồn tại của nó. Có hàng rào tương đương với đèn pha và hàng rào dao cạo, nhưng nếu đó là những gì bạn muốn, robots.txtthì không phải vậy.

— Bắn Parthian

25

Có vẻ như Google cố tình bao gồm các URL không được phép trong robots.txtchỉ mục của họ nếu có các liên kết đến các URL đó từ các trang khác mà họ đã thu thập được. Để trích dẫn các trang trợ giúp Công cụ quản trị trang web của họ :

"Mặc dù Google sẽ không thu thập dữ liệu hoặc lập chỉ mục nội dung của các trang bị chặn bởi tệp robots.txt, chúng tôi vẫn có thể lập chỉ mục các URL nếu chúng tôi tìm thấy chúng trên các trang khác trên web. Do đó, URL của trang và, có khả năng, khác thông tin có sẵn công khai, chẳng hạn như văn bản neo trong các liên kết đến trang web hoặc tiêu đề từ Dự án thư mục mở (www.dmoz.org), có thể xuất hiện trong kết quả tìm kiếm của Google. "

Rõ ràng, Google diễn giải một Disallowchỉ thị robots.txtlà cấm không được thu thập dữ liệu trang, không chống lại việc lập chỉ mục . Tôi cho rằng về mặt kỹ thuật đó là một cách giải thích hợp lệ, ngay cả khi nó không tuân theo các quy tắc hợp pháp với tôi.

Trong bài viết phỏng vấn này , Matt Cutts từ Google cung cấp thêm một chút nền tảng và cung cấp một lời giải thích hợp lý cho lý do tại sao họ làm điều này:

"Trong những ngày đầu, rất nhiều trang web rất phổ biến không muốn được thu thập thông tin. Ví dụ, eBay và New York Times không cho phép bất kỳ công cụ tìm kiếm nào, hoặc ít nhất là Google không thu thập dữ liệu bất kỳ trang nào từ nó. Thư viện Quốc hội có nhiều phần khác nhau nói rằng bạn không được phép thu thập dữ liệu bằng công cụ tìm kiếm. Và vì vậy, khi ai đó đến Google và họ gõ vào eBay, và chúng tôi đã không thu thập thông tin trên eBay và chúng tôi không thể quay lại eBay, chúng tôi Trông có vẻ không tối ưu. Vì vậy, sự thỏa hiệp mà chúng tôi quyết định đưa ra là, chúng tôi sẽ không thu thập dữ liệu của bạn từ robot.txt, nhưng chúng tôi có thể trả lại tham chiếu URL mà chúng tôi đã thấy. "

Giải pháp được đề xuất trên cả hai trang đó là thêm noindexthẻ meta vào các trang bạn không muốn lập chỉ mục. (Tuy nhiên, X-Robots-Tagtiêu đề HTTP cũng sẽ hoạt động cho các trang không phải HTML. Tôi không chắc là nó có hoạt động trên các chuyển hướng hay không.) Nghịch lý thay, điều này có nghĩa là bạn phải cho phép Googlebot thu thập dữ liệu các trang đó (bằng cách xóa chúng khỏi robots.txthoàn toàn hoặc bằng cách thêm một bộ quy tắc riêng biệt, dễ dãi hơn cho Googlebot), vì nếu không, nó không thể nhìn thấy thẻ meta ở vị trí đầu tiên.

Tôi đã chỉnh sửa tập lệnh bẫy chuyển hướng / bẫy nhện để gửi cả thẻ meta và X-Robots-Tagtiêu đề có giá trị noindex,nofollowvà cho phép Googlebot thu thập dữ liệu URL của tập lệnh trong tôi robots.txt. Chúng tôi sẽ xem nó có hoạt động không khi Google lập chỉ mục lại trang web của tôi.

— Ilmari Karonen
nguồn

5

Đúng là trong khi điều này sẽ ngăn Google (và các bot tốt) thu thập dữ liệu các trang này và đọc nội dung của chúng, chúng vẫn có thể hiển thị một liên kết chỉ có URL trong SERPs nếu chúng được liên kết đến, dưới dạng:

URL chỉ liên kết trong Google SERPs

Như bạn có thể thấy, không có tiêu đề hoặc mô tả, nó thực sự chỉ là URL. Đương nhiên những loại kết quả này thường được bỏ qua khỏi SERPs, trừ khi bạn rõ ràng tìm kiếm chúng.

Và như bạn đã đề cập trong câu trả lời của mình, nếu bạn không muốn URL xuất hiện hoàn toàn trong SERPs, thì bạn cần cho phép robot, nhưng bao gồm thẻ meta noindex.

— Ông WHITE
nguồn