Tôi là nhà thiết kế chính và là tác giả của trình thu thập dữ liệu web quy mô khá lớn (xem metadirthabs.com/mlbot (liên kết lưu trữ) ). Những gì bạn đang hỏi chạm vào một chủ đề rất quan trọng đối với chúng tôi - có lẽ là phần quan trọng nhất của việc chạy trình thu thập thông tin: đó là sự lịch sự.
Đầu tiên: lý do cho điều "Mozilla" là để cho trang web biết khả năng trình duyệt của bạn là gì. Nếu bot của bạn không cố gắng hoạt động như một trình duyệt, không có lý do cụ thể nào bạn cần đưa vào điều "Mozilla".
Đối với chuỗi tác nhân người dùng của bạn và các mục liên quan đến lịch sự khác:
Chọn một tên mà bạn biết không ai khác đang sử dụng. Tôi nghi ngờ rằng nếu bạn sử dụng "Goofybot", bạn sẽ ổn thôi. Nhưng tôi sẽ kiểm tra nó để chắc chắn.
Chuỗi tác nhân người dùng của bạn nên bao gồm một liên kết đến nhiều thông tin hơn về bot. Ví dụ: chuỗi của chúng tôi ghi "MLBot (www.metadirthabs.com/mlbot)".
Đảm bảo rằng nếu ai đó tìm kiếm "Goofybot", trang đó sẽ cao (tốt nhất là đầu tiên) trong kết quả tìm kiếm.
Trang của bạn về bot sẽ cho biết bạn đang sử dụng thông tin để làm gì, địa chỉ IP bạn thu thập dữ liệu từ đâu và bao gồm cách để mọi người liên hệ với bạn về các vấn đề với bot.
Bạn nên nhanh chóng trả lời bất kỳ câu hỏi hoặc khiếu nại nào, sử dụng triết lý "khách hàng luôn luôn đúng". Hãy nhớ rằng, nếu bot của bạn gây ra sự cố mà người này đang phàn nàn thì có lẽ nó đã gây ra sự cố trên hàng tá trang web khác mà không ai phàn nàn. Họ sẽ không nhìn thấy vấn đề hoặc họ chỉ đặt một khối trên địa chỉ IP của bạn.
Bạn nên xây dựng trong cơ sở để ngăn bot của bạn truy cập vào một tên miền cụ thể. Một số người sẽ không muốn bạn thu thập dữ liệu và không có quyền truy cập hoặc khả năng kỹ thuật để tạo tệp robots.txt hoặc chặn .htaccess. Chúng tôi thấy rằng khả năng này cho phép chúng tôi nói với ai đó, "Chúng tôi xin lỗi MLBot đã gây ra sự cố. Chúng tôi đã hướng dẫn nó không bao giờ thu thập dữ liệu trang web của bạn nữa." Có lẽ không có gì đáng ngạc nhiên, điều đó làm mọi người bình tĩnh lại rất nhanh.
Nếu bạn chưa tôn trọng robot.txt, hãy làm điều đó. Không có gì giúp bạn có tiếng xấu nhanh hơn việc bỏ qua robot.txt.
Ồ Điều đó đã diễn ra lâu hơn tôi mong đợi. Trong bốn năm qua, tôi đã phạm phải một trong những sai lầm mà tôi ám chỉ ở trên và những lỗi khác bên cạnh. Tuy nhiên, chúng tôi thấy rằng nếu chúng tôi cởi mở về những gì chúng tôi đang làm và giao tiếp một cách trung thực (bao gồm đăng thông tin về các lỗi trước khi chúng tôi khiếu nại), phần lớn các Quản trị viên web xem chúng tôi là một công dân Internet tốt.