Tôi nên đặt tác nhân người dùng nào?


18

Có Ask bot, bộ tiêu đề này:

Mozilla/2.0 (compatible; Ask Jeeves/Teoma) 

Xem xét điều này, tôi có các câu hỏi sau đây:

  • Nếu tôi đang viết một trình thu thập dữ liệu web có tên Goofy, tôi nên sử dụng tác nhân người dùng nào?
  • Sự khác biệt nếu tôi đặt Mozilla/2.0hoặc là Mozilla/5.0gì?

Bất kỳ đề xuất nào khác về cách tôi nên định dạng tác nhân người dùng của mình để tuân thủ các tiêu chuẩn hiện tại sẽ được chào đón nhiều hơn.

Câu trả lời:


32

Tôi là nhà thiết kế chính và là tác giả của trình thu thập dữ liệu web quy mô khá lớn (xem metadirthabs.com/mlbot (liên kết lưu trữ) ). Những gì bạn đang hỏi chạm vào một chủ đề rất quan trọng đối với chúng tôi - có lẽ là phần quan trọng nhất của việc chạy trình thu thập thông tin: đó là sự lịch sự.

Đầu tiên: lý do cho điều "Mozilla" là để cho trang web biết khả năng trình duyệt của bạn là gì. Nếu bot của bạn không cố gắng hoạt động như một trình duyệt, không có lý do cụ thể nào bạn cần đưa vào điều "Mozilla".

Đối với chuỗi tác nhân người dùng của bạn và các mục liên quan đến lịch sự khác:

  1. Chọn một tên mà bạn biết không ai khác đang sử dụng. Tôi nghi ngờ rằng nếu bạn sử dụng "Goofybot", bạn sẽ ổn thôi. Nhưng tôi sẽ kiểm tra nó để chắc chắn.

  2. Chuỗi tác nhân người dùng của bạn nên bao gồm một liên kết đến nhiều thông tin hơn về bot. Ví dụ: chuỗi của chúng tôi ghi "MLBot (www.metadirthabs.com/mlbot)".

  3. Đảm bảo rằng nếu ai đó tìm kiếm "Goofybot", trang đó sẽ cao (tốt nhất là đầu tiên) trong kết quả tìm kiếm.

  4. Trang của bạn về bot sẽ cho biết bạn đang sử dụng thông tin để làm gì, địa chỉ IP bạn thu thập dữ liệu từ đâu và bao gồm cách để mọi người liên hệ với bạn về các vấn đề với bot.

  5. Bạn nên nhanh chóng trả lời bất kỳ câu hỏi hoặc khiếu nại nào, sử dụng triết lý "khách hàng luôn luôn đúng". Hãy nhớ rằng, nếu bot của bạn gây ra sự cố mà người này đang phàn nàn thì có lẽ nó đã gây ra sự cố trên hàng tá trang web khác mà không ai phàn nàn. Họ sẽ không nhìn thấy vấn đề hoặc họ chỉ đặt một khối trên địa chỉ IP của bạn.

  6. Bạn nên xây dựng trong cơ sở để ngăn bot của bạn truy cập vào một tên miền cụ thể. Một số người sẽ không muốn bạn thu thập dữ liệu và không có quyền truy cập hoặc khả năng kỹ thuật để tạo tệp robots.txt hoặc chặn .htaccess. Chúng tôi thấy rằng khả năng này cho phép chúng tôi nói với ai đó, "Chúng tôi xin lỗi MLBot đã gây ra sự cố. Chúng tôi đã hướng dẫn nó không bao giờ thu thập dữ liệu trang web của bạn nữa." Có lẽ không có gì đáng ngạc nhiên, điều đó làm mọi người bình tĩnh lại rất nhanh.

  7. Nếu bạn chưa tôn trọng robot.txt, hãy làm điều đó. Không có gì giúp bạn có tiếng xấu nhanh hơn việc bỏ qua robot.txt.

Ồ Điều đó đã diễn ra lâu hơn tôi mong đợi. Trong bốn năm qua, tôi đã phạm phải một trong những sai lầm mà tôi ám chỉ ở trên và những lỗi khác bên cạnh. Tuy nhiên, chúng tôi thấy rằng nếu chúng tôi cởi mở về những gì chúng tôi đang làm và giao tiếp một cách trung thực (bao gồm đăng thông tin về các lỗi trước khi chúng tôi khiếu nại), phần lớn các Quản trị viên web xem chúng tôi là một công dân Internet tốt.


Liên kết ví dụ trên ( metadatalabs.com/mlbot ) chương trình Just ( "Đang xây dựng") ....
starbeamrainbowlabs

2
@starbeamrainbowlabs Câu trả lời đó đã được viết vào năm 2010. Phòng thí nghiệm siêu dữ liệu ngừng hoạt động vào năm 2012.
Jim Mischel

Có một sự thay thế nào cả?
starbeamrainbowlabs

@starbeamrainbowlabs thay thế cho cái gì?
Jim Mischel

Đối với bất cứ điều gì đã được liên kết đến trên trang phòng thí nghiệm Siêu dữ liệu đó được hiển thị. Khi tôi không thể nhìn thấy nó, tôi không thể đề xuất một giải pháp thay thế: P
starbeamrainbowlabs

8

Mozilla / 2.0 và Mozilla / 5.0 đều là các tham chiếu đến trình duyệt Mozilla. Nó đã trở nên vô nghĩa, với nhiều trình thu thập thông tin sử dụng nó, nhưng nên nói với trang web để đối xử với trình thu thập thông tin của bạn như bất kỳ người dùng ngẫu nhiên nào duyệt bằng trình duyệt thông thường.

Tuy nhiên, đó là phép xã giao tốt để bao gồm một URL liên kết đến một trang về bạn là ai và tại sao bạn lại bò trong phần sau. Hỏi Jeeves có thể thoát khỏi chỉ với tên, nhưng bạn nên bao gồm một URL.

Ví dụ

Mozilla/5.0 (compatible; http://example.org/)

Điều này sẽ cho phép quản trị viên web tìm ra lý do tại sao bạn thu thập dữ liệu trang web của họ và cũng liên hệ với bạn nếu có vấn đề với cách trình thu thập thông tin của bạn hoạt động.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.