Do khách truy cập duy nhất vào một trang web theo một luật quyền lực?


14

Giả sử tôi có một vectơ được đặt hàng trong đó phần tử đầu tiên là số lượt truy cập vào một trang web trong một khoảng thời gian nhất định bởi IP duy nhất có số lượt truy cập cao nhất, phần tử thứ hai là số lượt truy cập của IP duy nhất với lần truy cập thứ hai số lượt truy cập cao nhất, v.v. Tôi hiểu có thể có mỗi biến thể trang web, nhưng nói chung có một mô hình giả định cho hình dạng của vectơ này không? Liệu nó, ví dụ, theo một phân phối quyền lực pháp luật?


6
IP sẽ không phù hợp với mọi người đặc biệt vì địa chỉ động và nhiều vấn đề khác (như mọi người sử dụng nhiều máy tính). Nếu tôi muốn kiểm tra giả thuyết này, có lẽ tôi sẽ sử dụng ID khách truy cập thay vì địa chỉ IP.
richiemorrisroe

Câu trả lời:


23

Không, khách truy cập duy nhất vào một trang web không tuân theo luật quyền lực.

Trong vài năm qua, đã có sự nghiêm ngặt ngày càng tăng trong việc kiểm tra các yêu cầu pháp luật về quyền lực (ví dụ, Clauset, Shalizi và Newman 2009). Rõ ràng, các tuyên bố trước đây thường không được kiểm tra tốt và thông thường là vẽ dữ liệu theo thang đo log-log và dựa vào "kiểm tra nhãn cầu" để chứng minh đường thẳng. Bây giờ các thử nghiệm chính thức là phổ biến hơn, nhiều bản phân phối hóa ra không tuân theo luật quyền lực.

Hai tài liệu tham khảo tốt nhất mà tôi biết rằng kiểm tra lượt truy cập của người dùng trên web là Ali và Scarr (2007) và Clauset, Shalizi và Newman (2009).

Ali và Scarr (2007) đã xem xét một mẫu ngẫu nhiên các lần nhấp của người dùng trên trang web Yahoo và kết luận:

Sự khôn ngoan ưu tiên là việc phân phối các lần nhấp web và số lần xem trang tuân theo phân phối luật quyền lực không có quy mô. Tuy nhiên, chúng tôi đã phát hiện ra rằng một mô tả dữ liệu tốt hơn đáng kể về mặt thống kê là phân phối Zipf- Mandelbrot nhạy cảm theo quy mô và các hỗn hợp của chúng giúp tăng cường sự phù hợp hơn nữa. Các phân tích trước đây có ba nhược điểm: họ đã sử dụng một nhóm nhỏ các phân phối ứng viên, phân tích hành vi web của người dùng lỗi thời (khoảng năm 1998) và sử dụng các phương pháp thống kê đáng ngờ. Mặc dù chúng tôi không thể loại trừ rằng một phân phối phù hợp tốt hơn có thể không được tìm thấy một ngày nào đó, chúng tôi có thể nói chắc chắn rằng phân phối Zipf-Mandelbrot nhạy cảm theo quy mô cung cấp sự phù hợp mạnh mẽ hơn đáng kể cho dữ liệu so với luật điện không có quy mô hoặc Zipf trên một loạt các ngành dọc từ miền Yahoo.

Dưới đây là biểu đồ của các lần nhấp của người dùng cá nhân trong một tháng và cùng một dữ liệu của họ trên biểu đồ log-log, với các mô hình khác nhau mà họ so sánh. Dữ liệu rõ ràng không nằm trên một dòng log-log thẳng dự kiến ​​từ phân phối điện không có tỷ lệ.

Hình 2 và 4 từ Ali và Scarr

Clauset, Shalizi và Newman (2009) đã so sánh các giải thích về luật quyền lực với các giả thuyết thay thế bằng cách sử dụng các bài kiểm tra tỷ lệ khả năng và kết luận cả lượt truy cập và liên kết web "không thể được coi là tuân theo luật quyền lực." Dữ liệu của họ trước đây là các lượt truy cập web của khách hàng của dịch vụ Internet trực tuyến của Mỹ trong một ngày và sau đó là các liên kết đến các trang web được tìm thấy trong một trang web thu thập thông tin năm 1997 của khoảng 200 triệu trang web. Các hình ảnh dưới đây cung cấp cho các hàm phân phối tích lũy P (x) và khả năng tối đa của chúng - luật pháp.

nhập mô tả hình ảnh ở đây

Đối với cả hai tập dữ liệu này, Clauset, Shalizi và Newman nhận thấy rằng các phân phối công suất với các cuto theo cấp số nhân để sửa đổi đuôi cực của phân phối rõ ràng tốt hơn các phân phối luật thuần túy và phân phối log-log thông thường cũng phù hợp. (Họ cũng đã xem xét các giả thuyết theo cấp số nhân và kéo dài.)

Nếu bạn có một bộ dữ liệu trong tay và không chỉ tò mò, bạn nên kết hợp nó với các mô hình khác nhau và so sánh chúng (trong R: pchisq (2 * (logLik (model1) - logLik (model2)), df = 1, thấp hơn. đuôi = SAI)). Tôi thú nhận rằng tôi không có ý tưởng nào về cách mô hình hóa mô hình ZM được điều chỉnh bằng không. Ron Pearson đã viết blog về các bản phân phối ZM và rõ ràng có một gói zipfR R. Tôi, tôi có thể sẽ bắt đầu với một mô hình nhị thức âm tính nhưng tôi không phải là một nhà thống kê thực sự (và tôi thích ý kiến ​​của họ).

(Tôi cũng muốn bình luận viên thứ hai @richiemorrisroe ở trên, người chỉ ra dữ liệu có khả năng bị ảnh hưởng bởi các yếu tố không liên quan đến hành vi của con người, như các chương trình thu thập dữ liệu trên web và địa chỉ IP đại diện cho máy tính của nhiều người.)

Giấy tờ đề cập:


@MattBag, Có vẻ thú vị, sẽ thử điều này trong trường hợp thống kê này.stackexchange.com/q/41286/13201
FredrikD
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.