Giải thích tác nhân người dùng trống


12

Làm thế nào tôi nên giải thích một tác nhân người dùng trống? Tôi có một số mã phân tích tùy chỉnh và mã đó chỉ phải phân tích lưu lượng truy cập của con người. Tôi đã có một danh sách hoạt động của các Tác nhân người dùng biểu thị lưu lượng người và lưu lượng bot, nhưng Tác nhân người dùng trống đang chứng tỏ là có vấn đề. Và tôi đang nhận được nhiều lưu lượng truy cập với Tác nhân người dùng trống, khoảng 10%.

Ngoài ra, tôi đã tạo ra lưu lượng truy cập của con người so với danh sách tác nhân người dùng lưu lượng bot bằng cách phân tích nhật ký hiện tại của tôi. Như vậy tôi có thể thiếu rất nhiều mục trong đó. Có một danh sách các tác nhân người dùng duy trì tốt biểu thị lưu lượng bot hay, ngược lại, một danh sách các tác nhân người dùng biểu thị lưu lượng truy cập của con người?


1
Danh sách các tác nhân người dùng có thể là rất dài. Chẳng hạn, hãy xem danh sách các tác nhân người dùng chỉ dành cho thiết bị di động tại đây: zytrax.com/tech/web/mobile_ids.html
Max Vernon

Tác nhân người dùng trống khá hiếm - bạn đang sử dụng phần mềm máy chủ nào? Làm thế nào bạn nhận được tác nhân người dùng? Bạn có chắc chắn rằng nó thực sự trống, hoặc có một số lỗi trong hệ thống bộ sưu tập của bạn đang tạo ra các tác nhân người dùng trống?
Max Vernon

@Max - Bản thân tôi cũng ngạc nhiên về tác nhân người dùng trống. Tôi đang sử dụng LAMP stack. Tôi thu thập tác nhân người dùng thông qua PHP dưới dạng $ _SERVER ['HTTP_USER_AGENT']. Mã rất đơn giản; mặc dù tôi hoàn toàn không thể giảm khả năng tác nhân người dùng ở đó nhưng mã của tôi không thu thập được hoặc cơ sở dữ liệu từ chối lưu trữ, tôi nghi ngờ đó là trường hợp.

1
Nếu bạn có quyền truy cập vào nhật ký truy cập của Apache: Các tác nhân người dùng đã đăng nhập có trống không?

có lẽ bạn có một cạp truy cập trang web của bạn? Đó có thể là một cách mà khách truy cập dường như không có USER_AGENT
Max Vernon

Câu trả lời:


5

Nếu bạn chỉ muốn phân tích "lưu lượng người", tôi sẽ không tính những người có chuỗi tác nhân người dùng trống hoặc thiếu. Theo kinh nghiệm của tôi, hầu hết mọi trình duyệt sẽ luôn gửi một cái. Ngay cả hầu hết các plugin hoặc tiện ích mở rộng riêng tư khá giả (bao gồm tên HĐH hoặc Máy khách khác) hoặc "bình thường hóa" (ví dụ: không có số phát hành) hoặc ngẫu nhiên hóa (ví dụ đôi khi FF, đôi khi là chuỗi IE), nhưng không loại bỏ hoàn toàn chúng (vì điều này có thể gây ra sự cố với một số trang web dựa vào nó, ngay cả khi đó không phải là ý tưởng hay.)

Một yêu cầu đơn giản không có UA có thể được thực hiện như thế này:

wget --user-agent="" www.example.com

Như bạn thấy bạn có thể thêm bất cứ điều gì bạn muốn. Các trang web lưu trữ và xuất bản UA được tìm thấy "trong tự nhiên" không được sử dụng nhiều vì chúng tìm thấy rất nhiều thứ nhảm nhí.

Có thể ai đó chỉ lấy đệ quy nội dung của bạn. Hoặc đã sử dụng một số công cụ SEO để phân tích trang web của bạn (một số cho phép người dùng thay đổi tiêu đề theo cách thủ công, một số khác với ý định bỏ qua một dòng robot.txt). Những thứ như thế. Trong những tình huống đó, tiêu đề UA thường được làm giả để ẩn mục đích và ứng dụng khách.

Nếu các yêu cầu này liên tục xuất hiện xung quanh, có thể hữu ích để phân tích thêm các tiêu đề (Proxy?) Hoặc IP (Một khối nhất định? Công ty liên quan đến quyền riêng tư / Proxy?)


2

Tôi làm việc cho một công ty bảo mật và trong số những thứ khác chúng tôi theo dõi lưu lượng Bad Bot.

Dựa trên kinh nghiệm của tôi, con người truy cập với dữ liệu tác nhân người dùng trống cho thấy các nỗ lực quét / spam (thường là cào) được thực hiện bởi các bot "trình duyệt không đầu".

Những khách truy cập này đôi khi có thể thực thi JS và do đó họ sẽ xuất hiện trong GA - tuy nhiên, liều này không biến họ thành người :)

Xin lỗi vì "phích cắm" nhưng xin vui lòng biết rằng, nếu cần, chúng tôi cung cấp dịch vụ bảo vệ Bad Bot miễn phí - cùng với khả năng tăng tốc CDN và các tính năng khác.

Trong trường hợp cụ thể này, hệ thống của chúng tôi sẽ nhận ra chuyến thăm này là "đáng ngờ", đã xác minh nó chống lại các vectơ tấn công đã biết và - nếu vẫn không chắc chắn - đã thực hiện các thử nghiệm và thử thách tiếp theo. Những thách thức này được thực hiện liền mạch, không gây ra bất kỳ sự chậm trễ nào cho phiên.


0

Mỗi bit phần mềm truy cập internet không được cung cấp một tác nhân người dùng một cách kỳ diệu. Các nhà phát triển phần mềm phải lập trình chức năng đó vào phần mềm của họ. Tác nhân người dùng trống của bạn chỉ có nghĩa là nhà phát triển phần mềm quên thêm tác nhân người dùng vào phần mềm của họ.


Hoặc người dùng trình duyệt đã xóa / chặn chuỗi UA.
unor

5
Cái này sai. Nói nó "chỉ có nghĩa" ngụ ý rằng đó thường là hoặc ít nhất là thường là lý do. Rất ít người sử dụng phần mềm http mà nhà phát triển sẽ bỏ qua UA vì sự lười biếng. Nếu bất cứ điều gì hầu như luôn chỉ ra nguồn lưu lượng truy cập không muốn được xác định và có liên quan sâu sắc với lưu lượng truy cập độc hại hoặc khai thác. Thật không may, một số công ty lớn (Facebook) đã sử dụng các chuỗi tác nhân người dùng trống trong quá khứ, vì vậy không nhất thiết phải chặn chúng hoàn toàn.
jerclarke

1
@jeremyclarke +1 Loại hành vi này không bao giờ được bỏ qua! Và xấu hổ trên Facebook! Nếu một bot hoặc trình duyệt hợp pháp cần xem xét một trang web, họ phải luôn có một định danh. Rốt cuộc, họ đang xâm nhập vào tài sản của người khác. Không có tác nhân người dùng giống như một tên trộm lẻn vào với mặt nạ trên để che giấu danh tính của họ.
whitebeard

2
Nó giống như ai đó với khuôn mặt che mặt đi lại qua lối đi trước nhà bạn. Không nhất thiết là bất hợp pháp, nhưng nếu bạn không trả lời cánh cửa, họ không nên cho rằng bạn là một kẻ hoang tưởng.
jerclarke

0

Tôi đang thấy một vài bình luận trong các câu trả lời cho câu hỏi này so sánh Tác nhân Người dùng để che giấu danh tính của bạn hoặc là con người. Đây là một so sánh vô lý. User-Agent không liên quan gì đến danh tính hay con người.

Hãy nghĩ về nó như giày dép. Bạn đang hỏi khách của bạn loại giày nào họ đang mặc trước khi bạn cho họ vào. Công dụng phổ biến nhất của việc này là để biết loại thảm nào bạn cần lăn ra, thảm đỏ đẹp cho giày sạch, thảm chùi chân xấu xí cho bùn ủng, và không có thảm cho du khách là thảm dị ứng.

Khi khách truy cập không muốn nói họ có giày dép gì (hay còn gọi là Tác nhân người dùng trống), bạn bỏ qua chúng.

Có, có rất nhiều thực tiễn tốt cố gắng thừa nhận mọi thứ về yêu cầu web dựa trên Tác nhân người dùng và thông tin tiêu đề yêu cầu khác. Chúng có thể hoạt động tuyệt vời 99% thời gian, nhưng cũng giống như rất nhiều hoạt động tương tự khác, chúng dễ bị sai và do đó gây hại cho người dùng không biết gì.

Bản thân tôi đã gặp phải vấn đề vô tình sử dụng một Tác nhân người dùng trống rỗng, tôi chắc chắn có thể nói rằng thật không vui khi một dịch vụ web đối xử với bạn khác chỉ vì bạn không nghĩ sẽ nói về giày dép của mình.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.