Tôi đang thực hiện một dự án phân tích dữ liệu liên quan đến việc điều tra thời gian sử dụng trang web trong suốt cả năm. Những gì tôi muốn làm là so sánh mức độ "nhất quán" của các mẫu sử dụng, ví dụ, mức độ gần gũi của chúng với một mẫu liên quan đến việc sử dụng nó trong 1 giờ mỗi tuần hoặc một mẫu liên quan đến việc sử dụng nó trong 10 phút mỗi lần, 6 số lần mỗi tuần. Tôi biết một số điều có thể được tính toán:
- Shannon entropy: đo lường mức độ "chắc chắn" trong kết quả khác nhau, tức là phân phối xác suất khác nhau bao nhiêu so với phân phối đồng nhất;
- Phân kỳ Kullback-Liebler: đo lường phân phối xác suất khác nhau bao nhiêu
- Phân kỳ Jensen-Shannon: tương tự phân kỳ KL, nhưng hữu ích hơn vì nó trả về các giá trị hữu hạn
- Thử nghiệm Smirnov-Kolmogorov : một thử nghiệm để xác định xem hai hàm phân phối tích lũy cho các biến ngẫu nhiên liên tục có đến từ cùng một mẫu hay không.
- Kiểm tra chi bình phương: một kiểm tra mức độ phù hợp để quyết định phân phối tần số khác với phân phối tần suất dự kiến như thế nào.
Những gì tôi muốn làm là so sánh thời lượng sử dụng thực tế (màu xanh) khác với thời gian sử dụng lý tưởng (màu cam) trong phân phối. Các bản phân phối này rời rạc và các phiên bản dưới đây được chuẩn hóa để trở thành bản phân phối xác suất. Trục hoành biểu thị lượng thời gian (tính bằng phút) mà người dùng đã dành cho trang web; điều này đã được ghi lại cho mỗi ngày trong năm; nếu người dùng hoàn toàn không truy cập trang web thì điều này được tính là thời lượng bằng 0 nhưng những điều này đã bị xóa khỏi phân phối tần số. Bên phải là hàm phân phối tích lũy.
Vấn đề duy nhất của tôi là, mặc dù tôi có thể khiến phân kỳ JS trả về giá trị hữu hạn, khi tôi nhìn vào những người dùng khác nhau và so sánh các phân phối sử dụng của họ với lý tưởng, tôi nhận được các giá trị gần như giống nhau (do đó không phải là tốt chỉ số của chúng khác nhau bao nhiêu). Ngoài ra, khá nhiều thông tin bị mất khi chuẩn hóa các phân phối xác suất thay vì phân phối tần số (giả sử một sinh viên sử dụng nền tảng 50 lần, thì phân phối màu xanh phải được chia tỷ lệ theo chiều dọc để tổng chiều dài của các thanh bằng 50 và thanh màu cam nên có chiều cao là 50 chứ không phải 1). Một phần của những gì chúng tôi muốn nói đến "tính nhất quán" là liệu tần suất người dùng truy cập trang web có ảnh hưởng đến mức độ họ nhận được từ đó hay không; nếu số lần họ truy cập trang web bị mất thì việc so sánh phân phối xác suất là hơi đáng ngờ; ngay cả khi phân phối xác suất thời lượng của người dùng gần với mức sử dụng "lý tưởng", người dùng đó chỉ có thể đã sử dụng nền tảng trong 1 tuần trong năm, điều này được cho là không nhất quán.
Có bất kỳ kỹ thuật nào được thiết lập tốt để so sánh hai phân phối tần số và tính toán một số loại số liệu đặc trưng cho mức độ giống nhau (hoặc không giống nhau) của chúng không?