Làm cách nào để đo khoảng cách thống kê của người dùng giữa hai phân phối tần số?


14

Tôi đang thực hiện một dự án phân tích dữ liệu liên quan đến việc điều tra thời gian sử dụng trang web trong suốt cả năm. Những gì tôi muốn làm là so sánh mức độ "nhất quán" của các mẫu sử dụng, ví dụ, mức độ gần gũi của chúng với một mẫu liên quan đến việc sử dụng nó trong 1 giờ mỗi tuần hoặc một mẫu liên quan đến việc sử dụng nó trong 10 phút mỗi lần, 6 số lần mỗi tuần. Tôi biết một số điều có thể được tính toán:

  • Shannon entropy: đo lường mức độ "chắc chắn" trong kết quả khác nhau, tức là phân phối xác suất khác nhau bao nhiêu so với phân phối đồng nhất;
  • Phân kỳ Kullback-Liebler: đo lường phân phối xác suất khác nhau bao nhiêu
  • Phân kỳ Jensen-Shannon: tương tự phân kỳ KL, nhưng hữu ích hơn vì nó trả về các giá trị hữu hạn
  • Thử nghiệm Smirnov-Kolmogorov : một thử nghiệm để xác định xem hai hàm phân phối tích lũy cho các biến ngẫu nhiên liên tục có đến từ cùng một mẫu hay không.
  • Kiểm tra chi bình phương: một kiểm tra mức độ phù hợp để quyết định phân phối tần số khác với phân phối tần suất dự kiến ​​như thế nào.

Những gì tôi muốn làm là so sánh thời lượng sử dụng thực tế (màu xanh) khác với thời gian sử dụng lý tưởng (màu cam) trong phân phối. Các bản phân phối này rời rạc và các phiên bản dưới đây được chuẩn hóa để trở thành bản phân phối xác suất. Trục hoành biểu thị lượng thời gian (tính bằng phút) mà người dùng đã dành cho trang web; điều này đã được ghi lại cho mỗi ngày trong năm; nếu người dùng hoàn toàn không truy cập trang web thì điều này được tính là thời lượng bằng 0 nhưng những điều này đã bị xóa khỏi phân phối tần số. Bên phải là hàm phân phối tích lũy.

Phân phối dữ liệu sử dụng trang web so với dữ liệu sử dụng lý tưởng

Vấn đề duy nhất của tôi là, mặc dù tôi có thể khiến phân kỳ JS trả về giá trị hữu hạn, khi tôi nhìn vào những người dùng khác nhau và so sánh các phân phối sử dụng của họ với lý tưởng, tôi nhận được các giá trị gần như giống nhau (do đó không phải là tốt chỉ số của chúng khác nhau bao nhiêu). Ngoài ra, khá nhiều thông tin bị mất khi chuẩn hóa các phân phối xác suất thay vì phân phối tần số (giả sử một sinh viên sử dụng nền tảng 50 lần, thì phân phối màu xanh phải được chia tỷ lệ theo chiều dọc để tổng chiều dài của các thanh bằng 50 và thanh màu cam nên có chiều cao là 50 chứ không phải 1). Một phần của những gì chúng tôi muốn nói đến "tính nhất quán" là liệu tần suất người dùng truy cập trang web có ảnh hưởng đến mức độ họ nhận được từ đó hay không; nếu số lần họ truy cập trang web bị mất thì việc so sánh phân phối xác suất là hơi đáng ngờ; ngay cả khi phân phối xác suất thời lượng của người dùng gần với mức sử dụng "lý tưởng", người dùng đó chỉ có thể đã sử dụng nền tảng trong 1 tuần trong năm, điều này được cho là không nhất quán.

Có bất kỳ kỹ thuật nào được thiết lập tốt để so sánh hai phân phối tần số và tính toán một số loại số liệu đặc trưng cho mức độ giống nhau (hoặc không giống nhau) của chúng không?


4
Bạn có thể muốn bắt đầu bằng cách tự hỏi chức năng mất của bạn là gì (nghĩa là mô hình sử dụng khác với mức độ lý tưởng như thế nào và mức độ xấu phụ thuộc vào loại phân kỳ nào) và thiết kế số liệu của bạn xung quanh đó.
Tích lũy

Câu trả lời:


12

Bạn có thể quan tâm đến khoảng cách của Trái đất , còn được gọi là số liệu Wasserstein . Nó được thực hiện trong R (nhìn vào emdistgói) và trong Python . Chúng tôi cũng có một số chủ đề về nó .

EMD hoạt động cho cả phân phối liên tục và rời rạc. Các emdistgói cho R hoạt động trên các bản phân phối rời rạc.

χ2

χ2


Tại sao khoảng cách cụ thể? Nó dường như được thiết kế cho bất kỳ phân phối liên tục. OP có phân phối tần số, vậy tại sao không có khoảng cách "rời rạc" hơn như Chi-vuông?
dùng2974951

@ user2974951: đủ công bằng. Xem chỉnh sửa của tôi.
S. Kolassa - Tái lập Monica

Lp

Lp

3

Nếu bạn lấy mẫu ngẫu nhiên một cá nhân từ mỗi trong hai phân phối, bạn có thể tính toán sự khác biệt giữa chúng. Nếu bạn lặp lại điều này (với sự thay thế) một số lần, bạn có thể tạo ra sự phân phối các khác biệt có chứa tất cả thông tin bạn đang theo dõi. Bạn có thể vẽ sơ đồ phân phối này và mô tả nó với bất kỳ số liệu thống kê tóm tắt nào bạn muốn - có nghĩa là, trung bình, v.v.


1
Có một tên cho một thủ tục như vậy?
dùng2974951

4
Tôi tự hỏi làm thế nào người ta có thể giải thích cho thực tế cơ bản rằng phân phối chênh lệch cho phân phối tùy ý và bản thân nó sẽ khác nhau đối với các phân phối tùy ý khác nhau; nghĩ rằng U (0,1) so với chính nó so với N (0,1) so với chính nó. Do đó, việc phân phối các khác biệt mà bạn sẽ nhận được khi so sánh hai phân phối khác nhau sẽ khó đánh giá nếu không có đường cơ sở duy nhất. Vấn đề sẽ biến mất nếu các quan sát được ghép nối, thì đường cơ sở sẽ là một khối đơn vị ở mức 0.
Richard Hardy

@ user2974951 Tôi chắc chắn là có, vì nó khá đơn giản và liên quan rõ ràng đến bootstrapping. Nhưng tôi không biết gọi nó là chính xác.
mkt - Phục hồi Monica

1
@mkt, cảm ơn bạn đã làm rõ. Không có ý định tranh luận chỉ vì lợi ích của nó, tôi vẫn nghĩ rằng nếu không có một đường cơ sở duy nhất, chúng ta hoàn toàn không có một người cai trị. Nhưng tôi sẽ để nó ở đó. Có một cái gì đó tốt đẹp về ý tưởng của bạn anyway.
Richard Hardy

1
@RichardHardy Tôi đánh giá cao sự trao đổi ở đây, và bạn có thể đúng. Tôi sẽ phải suy nghĩ về điều này hơn nữa.
mkt - Phục hồi Monica

0

Một trong những số liệu là khoảng cách Hellinger giữa hai bản phân phối được đặc trưng bởi phương tiện và độ lệch chuẩn. Ứng dụng này có thể được tìm thấy trong bài viết sau.

https://www.scTHERirect.com/science/article/pii/S1568494615005104


Cảm ơn vì điều đó. Tôi đã thấy rằng có cả một gia đình phân kỳ (f-phân kỳ) làm những gì tôi muốn, nhưng lướt nhanh qua các tài liệu dường như không chỉ ra điều gì là tốt nhất khi ... bạn có biết về bất kỳ tài liệu hay nào về điều này?
omegaSQU4RED
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.