Những bot và nhện nào tôi nên chặn trong robot.txt?


14

Để mà:

  1. Tăng tính bảo mật cho trang web của tôi
  2. Giảm yêu cầu băng thông
  3. Ngăn chặn thu hoạch địa chỉ email

Câu trả lời:


17

Không có bot nào đang thu thập email hoặc kiểm tra trang web của bạn để tìm lỗ hổng sẽ tôn trọng tệp robots.txt của bạn. Trên thực tế, các bot độc hại này nhìn vào tệp robots.txt để lập bản đồ trang web của bạn tốt hơn. Nếu bất kỳ điểm nào bạn có, Disallow:điều này sẽ được sử dụng để tấn công trang web của bạn tốt hơn. Một hacker đang xem thủ công trang web của bạn nên dành thêm thời gian để kiểm tra bất kỳ tệp / thư mục nào mà bạn đang cố gắng không cho phép.


3
Điểm thú vị. Tôi tự hỏi liệu có hợp lý khi thêm một trang giả mạo vào danh sách Không cho phép với mục đích duy nhất là bắt các bot như vậy để chúng có thể bị chặn tự động.
Steven Sudit

5
@Steven Sudit đó không phải là một ý tưởng tồi. Đây sẽ được gọi là một nồi mật ong.
Rook

Vâng, điều đó hoàn toàn chính xác, mặc dù tôi đã suy nghĩ nhiều hơn về thủ thuật tiêu chuẩn của trình biên dịch thư mục (danh bạ điện thoại, v.v.) về việc thêm một số lượng nhỏ các mục giả mạo để phát hiện hành vi trộm cắp bán buôn.
Steven Sudit

Nếu bạn cũng sử dụng honeypot đó như một tarpit, nó cũng sẽ làm đảo lộn những người lập chỉ mục bất hợp pháp. Điều này thực sự khá phổ biến để làm với những kẻ gửi thư rác - để lại một địa chỉ email có thể lập chỉ mục honeypot dẫn đến một máy chủ email tarpit.
Mark Henderson

@Fudeeker Tôi không thấy có vấn đề gì với việc trừng phạt những người vi phạm quy tắc. Mặc dù lừa đảo những kẻ gửi thư rác với dữ liệu xấu là một bước ngoặt thú vị.
Rook

4

robot.txt sẽ không tăng tính bảo mật cho trang web của bạn hoặc ngăn chặn việc thu thập địa chỉ email. robot.txt là một hướng dẫn cho các công cụ tìm kiếm bỏ qua các phần của trang web của bạn. Chúng sẽ không được lập chỉ mục và nên được sử dụng cho bất kỳ phần nào bạn không muốn hiển thị trong các công cụ tìm kiếm công cộng.

Tuy nhiên, điều này sẽ không ngăn cản bất kỳ bot nào khác tải xuống toàn bộ trang web của bạn để tăng tính bảo mật hoặc ngăn chặn việc thu thập e-mail. Để tăng tính bảo mật, bạn cần thêm xác thực và chỉ cho phép người dùng được xác thực ngoài các phần được bảo mật. Để ngăn chặn việc thu thập địa chỉ email, đừng đặt e-mail ở dạng văn bản đơn giản (hoặc văn bản dễ giải mã) trên trang web.


1

robot.txt sẽ không giúp bạn bảo mật. Bất kỳ bot nào muốn làm điều gì đó mờ ám sẽ bỏ qua nó.


0

Tệp robot.txt chỉ phục vụ như một yêu cầu mà bot và nhện để lại một số nội dung nhất định; nó thực sự không thể ngăn chặn sự truy cập của họ. Các bot "tốt" sẽ tôn trọng nó, nhưng các bot "xấu" (có thể là các bot mà bạn muốn chặn) sẽ bỏ qua nó và dù sao đi nữa.


-1

Thay vì robot.txt, có thể bạn cần sử dụng mã CAPTCHA.


Mã CAPTCHA không liên quan gì đến trình thu thập dữ liệu web (đó là địa chỉ robot.txt).
dùng48838

Đó là một downvote sai lầm. Toàn bộ vấn đề là trình thu thập thông tin có thể bỏ qua robot.txt, nhưng mã CAPTCHA ít nhất sẽ làm chậm nó, nếu không chặn hoàn toàn. Cảm ơn bạn đã sai.
Steven Sudit
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.