Tác nhân người dùng trong bất kỳ trình duyệt thông thường nào có chứa 'bot' hoặc 'thu thập dữ liệu'?


11

Tác nhân người dùng trong bất kỳ trình duyệt thông thường nào có chứa 'bot' hoặc 'thu thập dữ liệu'?

Tôi kiểm tra tác nhân người dùng trên trang web của mình để xem nó có đến từ bot hay không. Nếu có, tôi có thể thực hiện một số tối ưu hóa nhỏ vì chúng không đăng nhập. (Tôi hoàn toàn không thay đổi nội dung)

Sau khi thêm kiểm tra cho 30-40 + bot, tôi cảm thấy mệt mỏi khi thêm chúng. Vì vậy, tôi đã tự hỏi nếu kiểm tra xem nó chỉ chứa 'bot' hay 'thu thập dữ liệu'. Tôi biết rằng sẽ không nhận được tất cả các bot, nhưng nó sẽ nhận được rất nhiều trong số họ. Nhưng nếu điều đó có thể gây ra bất kỳ kết quả dương tính giả nào, thì nó sẽ hoàn toàn làm rối tung khả năng thêm vào giỏ hàng, đặt hàng và đăng nhập.

Câu trả lời:


13

Theo danh sách tại http://www.useragentopes.com/pages/useragentopes.php?typ=Browser với hơn 9000 chuỗi tác nhân người dùng từ các trình duyệt khác nhau:

  • 0 chuỗi tác nhân người dùng của trình duyệt chứa từ "bot"
  • 2 chuỗi tác nhân người dùng của trình duyệt chứa từ "thu thập dữ liệu"
  • 0 chuỗi tác nhân người dùng của trình duyệt chứa từ "spider"

(2 cái chứa "thu thập dữ liệu" như sau: "Mozilla / 4.0 (tương thích; MSIE 5,01; Windows NT 5.0; YComp 5.0.2.6; MSIECrawler)" và "Mozilla / 4.0 (tương thích; MSIE 5,01; Windows NT 5.0; MSIECrawler ) "Tôi nghĩ an toàn khi không xem xét những điều đó.)

Theo danh sách tại http://www.useragentopes.com/pages/useragentopes.php?typ=Crawler với 438 chuỗi tác nhân người dùng được liệt kê dưới dạng bot:

  • 208 chuỗi tác nhân người dùng của bot chứa từ "bot"
  • 63 chuỗi tác nhân người dùng của bot chứa từ "thu thập dữ liệu"
  • 37 chuỗi tác nhân người dùng của bot chứa từ "spider"
  • 282 chuỗi tác nhân người dùng của bot chứa "bot", "thu thập dữ liệu" hoặc "nhện"

Kết luận của tôi: an toàn khi lọc bot theo chuỗi tác nhân người dùng bằng các từ "bot", "thu thập dữ liệu" và "nhện". Nó không chống đạn nhưng chắc chắn tốt hơn không có gì.

Lưu ý: Khi tìm kiếm các từ khóa tôi đã sử dụng tìm kiếm không nhạy cảm trường hợp.


Cảm ơn rất nhiều cho câu trả lời của bạn. Tôi đã thực hiện một kiểm tra ngày hôm nay, và vẫn không có trình duyệt hoặc Trình duyệt di động chuỗi user agent chứa bất kỳ bot, crawl, spider, và thậm chí cả search.
Oliver

2

Một giải pháp tốt hơn IMO sẽ là phát hiện xem người dùng có đăng nhập hay không. Nếu không, hãy hiển thị trang tiêu chuẩn (điều này có thể được lưu trong bộ nhớ cache). Bất kỳ mạng nhện nào cũng sẽ không bao giờ được đăng nhập nhưng nếu bạn đang tối ưu hóa cho chúng, tại sao không cho người dùng mới vào trang web của bạn?


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.