Tôi có một số trang trên trang web của mình mà tôi muốn tránh xa các công cụ tìm kiếm, vì vậy tôi không cho phép chúng trong robots.txt
tệp của mình như thế này:
User-Agent: *
Disallow: /email
Tuy nhiên, gần đây tôi nhận thấy rằng Google đôi khi vẫn trả về các liên kết đến các trang đó trong kết quả tìm kiếm của họ. Tại sao điều này xảy ra, và làm thế nào tôi có thể ngăn chặn nó?
Lý lịch:
Cách đây vài năm, tôi đã tạo một trang web đơn giản cho một câu lạc bộ mà một người họ hàng của tôi đã tham gia. Họ muốn có các liên kết email trên trang của họ, vì vậy, để thử và giữ cho các địa chỉ email đó không kết thúc quá nhiều danh sách thư rác, thay vì sử dụng các mailto:
liên kết trực tiếp, tôi đã làm cho các liên kết đó trỏ đến một tập lệnh bẫy máy gặt đập / chuyển hướng địa chỉ đơn giản đang chạy trên trang web của riêng tôi. Tập lệnh này sẽ trả về chuyển hướng 301 đến mailto:
URL thực tế hoặc, nếu nó phát hiện ra mẫu truy cập đáng ngờ, một trang chứa nhiều địa chỉ e-mail giả ngẫu nhiên và liên kết đến nhiều trang như vậy. Để giữ cho các bot tìm kiếm hợp pháp tránh khỏi bẫy, tôi thiết lập robots.txt
quy tắc hiển thị ở trên, không cho phép toàn bộ không gian của cả các liên kết chuyển hướng hợp pháp và các trang bẫy.
Tuy nhiên, mới đây, một trong những người trong câu lạc bộ đã tìm kiếm tên riêng của Google và khá ngạc nhiên khi một trong những kết quả trên trang đầu tiên là một liên kết đến tập lệnh chuyển hướng, với một tiêu đề bao gồm địa chỉ email của họ được theo dõi bằng tên của tôi Tất nhiên, họ ngay lập tức gửi email cho tôi và muốn biết làm thế nào để lấy địa chỉ của họ ra khỏi chỉ mục của Google. Tôi cũng khá ngạc nhiên, vì tôi không biết rằng Google sẽ lập chỉ mục các URL như vậy, dường như vi phạm robots.txt
quy tắc của tôi .
Tôi đã quản lý để gửi yêu cầu xóa tới Google và có vẻ như nó đã hoạt động, nhưng tôi muốn biết tại sao và làm thế nào Google vượt qua được robots.txt
như thế của tôi và làm thế nào để đảm bảo rằng không có trang nào không được hiển thị trong đó kết quả tìm kiếm.
Thi thiên Tôi thực sự đã tìm ra một lời giải thích và giải pháp khả thi, mà tôi sẽ đăng bên dưới, trong khi chuẩn bị câu hỏi này, nhưng tôi nghĩ rằng dù sao tôi cũng sẽ hỏi nó trong trường hợp người khác có thể gặp vấn đề tương tự. Xin vui lòng gửi câu trả lời của riêng bạn. Tôi cũng muốn biết liệu các công cụ tìm kiếm khác có làm điều này không, và liệu các giải pháp tương tự có hoạt động với chúng không.
robots.txt
tập tin giống như một dấu hiệu "Không xâm phạm" nhỏ bên cạnh đường lái xe của ai đó. Đó không phải là phép thuật, và (trừ khi khách truy cập tìm kiếm nó một cách rõ ràng) họ có thể đi lang thang trên tài sản của bạn mà không bị ảnh hưởng đôi chút bởi sự tồn tại của nó. Có hàng rào tương đương với đèn pha và hàng rào dao cạo, nhưng nếu đó là những gì bạn muốn,robots.txt
thì không phải vậy.