Những cách chúng ta có thể phân biệt giữa một hành vi của con người và bot?


7

Cập nhật dựa trên ý kiến:

Bằng cách nào chúng ta có thể phân biệt một con người thực hiện một số hoạt động trực tuyến và bot được lập trình để thực hiện các hoạt động tương tự, nói kiểm tra email, tải xuống một số tệp nhạc, mua sắm trên ebay, tìm kiếm trên Google, v.v. hoặc có thể cố gắng xóa / hack trang web , vũ phu buộc mật khẩu đăng nhập, v.v.

Để hạn chế phạm vi của câu hỏi và làm cho nó rõ ràng hơn, chúng ta hãy hạn chế quan sát của chúng tôi chỉ đến hành vi mạng theo định hướng, một số ví dụ being- số lượng thời gian dành làm XYZ điều trực tuyến, số lượng / loại dữ liệu tải về (nói) từ một trang web chia sẻ tệp, số lượng bạn bè / người theo dõi trên các trang web truyền thông xã hội, v.v.

Tôi đoán có thể có được một số 'mẫu' sẽ phân biệt hành vi của con người và hành vi được lập trình.

Bài kiểm tra Turing không phải là thứ tôi đang tìm kiếm.

Những kỹ thuật có thể hữu ích ở đây? Học máy? Lý thuyết trò chơi?

Tài liệu tham khảo cho các bài báo học thuật / nghiên cứu có liên quan cũng sẽ tốt.


1

Một yêu cầu tham chiếu như của bạn quá rộng đối với Stack Exchange - bạn yêu cầu khảo sát toàn bộ khu vực nghiên cứu! Bạn cần thu hẹp đáng kể sự tập trung của mình trước khi một câu hỏi về phạm vi hợp lý xuất hiện. Hãy thử nói chuyện với (các) cố vấn của bạn, tìm kiếm với Google Scholar và xem hướng dẫn này để tìm kiếm (tái) tốt hơn trên Academia .
Raphael

Câu trả lời:


9

Cách phổ biến / rõ ràng nhất là thử nghiệm phản ứng thử thách dễ dàng đối với con người nhưng khó đối với máy tính (tất nhiên, nhưng không chỉ, CAPTCHA ).

Loại thử nghiệm này rất hiệu quả {1} nhưng nằm trong khu vực HIP (Bằng chứng tương tác của con người): nó không minh bạch.

Các cách tiếp cận "đơn giản" điển hình để phân biệt lưu lượng truy cập trang web của con người với Bot là:

  • cần có thời gian để điền vào tất cả các trường và nhấp vào nút gửi của biểu mẫu nhập (thường được sử dụng nhưng đơn giản để bỏ qua).

    Xem nhịp điệu / tốc độ của giao tiếp là một sự thay thế an toàn hơn (đây là một trong những tính năng của Google No CAPTCHA reCAPTCHA );

  • honeypots (tức là bẫy cho các bot bao gồm một liên kết hoặc trường có trên trang không nhìn thấy được bằng mắt người)
  • phân tích thời lượng phiên liên tục tối đa (con người phải nghỉ ngơi) và mối tương quan với thời gian trong ngày (xem Phân biệt con người với Bots trong Nhật ký tìm kiếm trên web )

Cần phải xem xét rằng các đặc tính bot thể hiện sự biến đổi rộng rãi cho các trình thu thập thông tin / các trang web khác nhau , do đó khó có thể đưa ra các phương pháp xác định đơn giản, xác định: các hệ thống dựa trên quy tắc ngụ ý một danh sách dài các quy tắc tĩnh khó xác định và duy trì (ngay cả bởi các chuyên gia) .

Kỹ thuật học máy thường được sử dụng:

Hầu như mọi "công cụ" AI / ML có sẵn đã được thử nghiệm . Vấn đề chính khi sử dụng các công cụ học máy được giám sát này là ghi nhãn tập dữ liệu đào tạo.

Ngay cả việc hạn chế phân tích đối với hành vi hướng mạng, đây là một câu hỏi có phạm vi rất lớn, vì lý do này tôi đang đưa ra một số từ khóa cho các tìm kiếm tiếp theo.


Ghi chú

  1. Các cuộc tấn công dựa trên Machine Learning đang được cải thiện và CAPTCHA cũng đóng vai trò là nhiệm vụ chuẩn cho các công nghệ trí tuệ nhân tạo (ví dụ: Kết thúc là Nigh: Giải quyết chung các CAPTCHA dựa trên văn bản )

Từ khóa

HIP (Bằng chứng tương tác của con người), CAPTCHA, Động lực gõ phím, nhịp gõ phím, động lực gõ, IDS (Hệ thống phát hiện xâm nhập), honeypot, lừa đảo nhấp chuột, spambot


Người giới thiệu

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.