Những bot nào thực sự đáng để cho vào một trang web?


11

Đã viết một số bot và thấy số lượng lớn các bot ngẫu nhiên xảy ra để thu thập dữ liệu một trang web, tôi tự hỏi là một quản trị trang web, những bot nào thực sự đáng để cho vào một trang web?

Suy nghĩ đầu tiên của tôi là cho phép các bot trên trang web có khả năng mang lại lưu lượng truy cập thực sự cho nó. Có bất kỳ lý do nào để cho phép các bot không được biết là đang gửi lưu lượng truy cập thực sự lên một trang web và làm thế nào để bạn phát hiện ra các bot "tốt" này?


1
+1: câu hỏi hay; tuy nhiên thật khó để trả lời câu hỏi của bạn vì có rất nhiều bot.
Zistoloen

@Zistoloen: Vâng, tôi biết đó là một câu hỏi khó; thực tế, lý do tôi hỏi là vì một công cụ tìm kiếm không chính mà tôi biết có hàng tỷ trang đã phàn nàn về cách họ không thể truy cập số lượng lớn trang web vì các trang web đang cố gắng chặn các công cụ tìm kiếm không chính.
sai lầm ngớ ngẩn


@blunders Cảm ơn bạn đã dành thời gian. Tôi đã tự chỉnh sửa nó nếu tôi có thể phân tích câu hỏi :)
DisgruntledGoat

@DisgruntledGoat: Không vấn đề gì, cảm ơn vì đã chỉnh sửa!
sai lầm ngớ ngẩn

Câu trả lời:


11

Trong vương quốc của các bot bình thường, tất cả phụ thuộc vào những gì bạn đánh giá cao và chỉ bạn mới có thể quyết định điều đó. Tất nhiên là có Google, Bing / MSN / Yahoo!, Yahoo và Yandex. Đây là những công cụ tìm kiếm chính. Ngoài ra còn có các trang web SEO và backlink khác nhau. Đúng hay sai, tôi cho phép một vài trong số những người lớn có quyền truy cập vào trang web của tôi, nhưng nói chung, họ là những trang web vô dụng. Tôi chặn archive.org không chỉ trong tệp robots.txt, mà bằng tên miền và địa chỉ IP. Điều này là do họ bỏ qua robot.txt thời gian lớn! Đây là một cái gì đó mà bạn cần để có được một cảm giác. Đừng để bị lừa bởi tên đại lý. Thường thì họ bị giả mạo bởi những người xấu. Ngày nay, tôi nhận được hàng ngàn yêu cầu trang từ các nguồn tự xưng là Baidu, nhưng không được. Nhận biết những con nhện này bằng tên miền và khối địa chỉ IP và học cách đối phó với chúng ở cấp độ đó. Những người tốt tuân theo robot.txt.

Nhưng tôi phải cảnh báo bạn, có một TẤN bot lén lút, bot lừa đảo, người dọn dẹp, v.v. bạn sẽ muốn tìm kiếm phân tích nhật ký của mình thường xuyên và chặn. 5uck5 này! Nhưng nó phải được thực hiện. Mối đe dọa lớn nhất từ ​​họ những ngày này là các liên kết chất lượng thấp đến trang web của bạn. Mã bảo mật chống bot cập nhật của tôi được triển khai trong năm nay đã tự động giảm 7700 liên kết chất lượng thấp. Tất nhiên, mã của tôi vẫn cần làm việc, nhưng bạn có được điểm. Các bot xấu vẫn đánh cắp tiềm năng trang web.

Sẽ không lâu nữa trước khi bạn hiểu rõ về nó.


1

Tôi gặp vấn đề với các bot của Yahoo làm chậm máy chủ của tôi trong khi công cụ tìm kiếm đang gửi gần như không có lưu lượng truy cập. Các bot này không tôn trọng tệp robot.txt vì vậy để chặn các bot của Baidu chỉ cần dán đoạn mã sau vào tệp htccess của bạn.

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

Tôi cũng gặp vấn đề với các con nhện Bing / Microsoft thu thập dữ liệu quá nhanh, không giống như Yahoo, họ rất tôn trọng tệp robot.txt;

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.