Câu hỏi tuyệt vời, và một trong số nhiều quản trị web có thể quan tâm vì nhện Baidu nổi tiếng là hung dữ và có thể hạ gục tài nguyên từ máy chủ ...
Như được chỉ ra trong tin tức Tìm kiếm trên web của Yahoo, con nhện Baidu không hỗ trợ cài đặt thông báo trì hoãn Thu thập thông tin và thay vào đó yêu cầu bạn phải đăng ký và xác minh trang web của mình với nền tảng Công cụ quản trị trang web của nó, như đã nêu ở đây trên trang web của nó. Đây dường như là lựa chọn duy nhất để kiểm soát tần số thu thập dữ liệu trực tiếp với Yahoo.
Vấn đề là các bot spam khác sử dụng các tác nhân người dùng của Yahoo (được liệt kê ở đây dưới số 2) để truy cập trang web của bạn, như được nêu trong Câu hỏi thường gặp của họ ở đây dưới số 4. Vì vậy, yêu cầu tốc độ thu thập dữ liệu chậm hơn với Baidu có thể không giải quyết được mọi thứ.
Do đó, nếu bạn quyết định sử dụng Công cụ quản trị trang web của Yahoo, thì cũng nên khôn ngoan khi so sánh các tác nhân người dùng của nó với IP được biết là được liên kết với chúng bằng cách sử dụng tài nguyên như Cơ sở dữ liệu Bots vs Trình duyệt hoặc sử dụng tra cứu DNS ngược
Các lựa chọn duy nhất khác là chặn tất cả các tác nhân người dùng của Baidu và do đó hy sinh lưu lượng truy cập tiềm năng từ Baidu hoặc cố gắng hạn chế các yêu cầu quá mức bằng cách sử dụng một cái gì đó như mod_qos cho Apache, nơi tuyên bố quản lý:
- Số lượng yêu cầu đồng thời tối đa đến một vị trí / tài nguyên (URL) hoặc máy chủ ảo.
- Giới hạn băng thông, chẳng hạn như số lượng yêu cầu tối đa được phép mỗi giây đối với một URL hoặc tối đa / tối thiểu của kbyte được tải xuống mỗi giây.
- Giới hạn số lượng sự kiện yêu cầu mỗi giây (điều kiện yêu cầu đặc biệt).
- Nó cũng có thể "phát hiện" những người rất quan trọng (VIP) có thể truy cập máy chủ web mà không hoặc có ít hạn chế hơn.
- Dòng yêu cầu chung và bộ lọc tiêu đề để từ chối các hoạt động trái phép. Yêu cầu giới hạn và lọc dữ liệu cơ thể (yêu cầu mod_parp).
- Các hạn chế về cấp độ kết nối TCP, ví dụ: số lượng kết nối được phép tối đa từ một địa chỉ nguồn IP duy nhất hoặc điều khiển duy trì động.
- Thích địa chỉ IP đã biết khi máy chủ hết kết nối TCP miễn phí.
Tôi chưa tìm thấy các trải nghiệm được báo cáo với Công cụ quản trị trang web của Yahoo, tải chậm và có vấn đề về dịch thuật (cũng không có phiên bản tiếng Anh). Điều đó có thể hữu ích, nhưng tất nhiên dựa trên quan điểm.