Có thể cho trình thu thập dữ liệu web để xem các trang tĩnh mà không theo liên kết đến chúng?


Câu trả lời:


10

Họ có thể nhìn thấy nó? Đúng. Họ có thể tìm thấy nó? Không phải không có sự giúp đỡ.

Trình thu thập dữ liệu web thường tìm các trang để thu thập thông tin bằng cách theo các liên kết đến chúng trên các trang khác. Một số trình thu thập thông tin (ví dụ: trình thu thập công cụ tìm kiếm) cũng sẽ thu thập dữ liệu các trang được liệt kê trong các tệp XML đặc biệt. Vì vậy, nếu không có liên kết đến trang trên trang web của bạn hoặc bất kỳ trang web nào khác thì trang đó sẽ không được thu thập thông tin (các trang có chứa URL của trang đó nhưng ở dạng văn bản thuần sẽ được Google tìm thấy ).

Tuy nhiên, một khi một trang được tìm thấy và thu thập thông tin, nó có thể được thu thập lại ngay cả khi tất cả các liên kết đến trang đó bị xóa khỏi các trang web tương ứng của chúng. Điều này là do các trang được thu thập thông tin sau đó được lập chỉ mục (ví dụ: được thêm vào danh sách các trang để thu thập thông tin một lần nữa) để trình thu thập thông tin biết để thu thập lại thông tin đó sau đó để tìm kiếm thay đổi. Nếu bạn muốn ngăn điều này xảy ra, bạn có thể thực hiện bất kỳ thao tác nào sau đây:

Hiệu quả nhất

  • Xóa trang khỏi Internet
  • Đã thay đổi URL của trang đó (về cơ bản là xóa trang và thêm một trang mới)
  • Đặt nó phía sau đăng nhập

Kém hiệu quả

  • Chặn trang đó bằng tệp robot.txt (có thể bị bỏ qua)
  • Cố gắng lọc các bot xấu bằng IP (có thể thay đổi theo mỗi lần truy cập) hoặc tác nhân người dùng (có thể bị giả mạo)

1

Một cách khác mà trang có thể được phát hiện là khi bạn có liên kết đến các trang web khác trên trang đó.

URL của trang của bạn sẽ xuất hiện trong nhật ký người giới thiệu của họ, một thời gian tuyệt vời của nhiều quản trị web là duyệt nhanh qua các nhật ký đó và xem những gì người khác đang nói về trang của họ.

Một số trang web dường như cung cấp quyền truy cập vào các nhật ký đó mà không có bất kỳ hạn chế truy cập nào, do đó, trình thu thập thông tin cũng có thể tiếp cận chúng ...

Để giữ cho trang thực sự bí mật, đừng để nó liên kết với các trang bên ngoài.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.