Nếu tôi tạo một trang tĩnh trên một tên miền (http://www.domain.com/page.html), trình thu thập thông tin vẫn có thể nhìn thấy nó nếu không có bất kỳ liên kết nào đến nó ở bất cứ đâu trên trang web?
Nếu tôi tạo một trang tĩnh trên một tên miền (http://www.domain.com/page.html), trình thu thập thông tin vẫn có thể nhìn thấy nó nếu không có bất kỳ liên kết nào đến nó ở bất cứ đâu trên trang web?
Câu trả lời:
Họ có thể nhìn thấy nó? Đúng. Họ có thể tìm thấy nó? Không phải không có sự giúp đỡ.
Trình thu thập dữ liệu web thường tìm các trang để thu thập thông tin bằng cách theo các liên kết đến chúng trên các trang khác. Một số trình thu thập thông tin (ví dụ: trình thu thập công cụ tìm kiếm) cũng sẽ thu thập dữ liệu các trang được liệt kê trong các tệp XML đặc biệt. Vì vậy, nếu không có liên kết đến trang trên trang web của bạn hoặc bất kỳ trang web nào khác thì trang đó sẽ không được thu thập thông tin (các trang có chứa URL của trang đó nhưng ở dạng văn bản thuần sẽ được Google tìm thấy ).
Tuy nhiên, một khi một trang được tìm thấy và thu thập thông tin, nó có thể được thu thập lại ngay cả khi tất cả các liên kết đến trang đó bị xóa khỏi các trang web tương ứng của chúng. Điều này là do các trang được thu thập thông tin sau đó được lập chỉ mục (ví dụ: được thêm vào danh sách các trang để thu thập thông tin một lần nữa) để trình thu thập thông tin biết để thu thập lại thông tin đó sau đó để tìm kiếm thay đổi. Nếu bạn muốn ngăn điều này xảy ra, bạn có thể thực hiện bất kỳ thao tác nào sau đây:
Hiệu quả nhất
Kém hiệu quả
Một cách khác mà trang có thể được phát hiện là khi bạn có liên kết đến các trang web khác trên trang đó.
URL của trang của bạn sẽ xuất hiện trong nhật ký người giới thiệu của họ, một thời gian tuyệt vời của nhiều quản trị web là duyệt nhanh qua các nhật ký đó và xem những gì người khác đang nói về trang của họ.
Một số trang web dường như cung cấp quyền truy cập vào các nhật ký đó mà không có bất kỳ hạn chế truy cập nào, do đó, trình thu thập thông tin cũng có thể tiếp cận chúng ...
Để giữ cho trang thực sự bí mật, đừng để nó liên kết với các trang bên ngoài.