Đo lường tính đồng nhất của một phân phối trong các ngày trong tuần


10

Tôi có một vấn đề tương tự với câu hỏi được hỏi ở đây:

Làm thế nào để đo lường sự không đồng đều của một phân phối?

Tôi có một bộ phân phối xác suất qua các ngày trong tuần. Tôi muốn đo mức độ gần nhau của mỗi phân phối (1 / 7.1 / 7, ..., 1/7).

Hiện tại tôi đang sử dụng một câu trả lời từ câu hỏi trên; một L2-Norm, có giá trị 1 khi phân phối có khối lượng 1 trong một ngày và được giảm thiểu cho (1 / 7.1 / 7, ..., 1/7). Tôi chia tỷ lệ tuyến tính này để nó nằm trong khoảng từ 0 đến 1, sau đó lật nó để 0 có nghĩa là không đồng nhất hoàn toàn và 1 có nghĩa là hoàn toàn đồng nhất.

Điều này hoạt động khá tốt, nhưng tôi có một vấn đề với nó; nó coi mỗi ngày trong tuần là một thứ nguyên trong không gian 7 chiều, vì vậy nó không tính đến độ gần của ngày; nói cách khác, nó cho cùng số điểm với (1 / 2,1 / 2,0,0,0,0,0) và (1 / 2,0,0,1 / 2,0,0,0) mặc dù trong một số ý nghĩa, cái sau có phần "dàn trải" và đồng đều hơn, và lý tưởng nhất là đạt được điểm cao hơn. Rõ ràng có sự phức tạp thêm rằng thứ tự ngày là hình tròn.

Làm thế nào tôi có thể thay đổi heuristic này để giải thích cho sự gần kề của ngày?


1
Ví dụ của bạn về (1 / 2,1 / 2,0,0,0,0,0) và (1 / 2,0,0,1 / 2,0,0,0) là không đồng nhất theo cùng một cách , vì vậy sẽ không có vấn đề gì nếu bạn chỉ quan tâm đến việc kiểm tra tính không đồng nhất. Vì vậy, có lẽ bạn muốn kiểm tra một cái gì đó không được nêu rõ ràng trong câu hỏi của bạn? Btw, entropy là thước đo độ đồng đều.
Tim

Cảm ơn Tim, tôi đã thử sử dụng Entropy nhưng tôi thấy các heuristic được đề cập ở trên hoạt động tốt hơn cho mục đích của tôi. Tôi không chắc nên gọi thuộc tính của phân phối xác suất vào các ngày trong tuần mà tôi quan tâm, ngoại trừ việc nó sẽ gói gọn "tính lan truyền" của xác suất trong tuần.
EBartrum

Câu trả lời:


15

Các trái đất mover khoảng cách , còn được gọi là Wasserstein số liệu, biện pháp khoảng cách giữa hai biểu đồ. Về cơ bản, nó coi một biểu đồ là một đống bụi bẩn và sau đó đánh giá một lượng bụi bẩn cần di chuyển và khoảng cách (!) Để biến biểu đồ này thành biểu đồ khác. Bạn sẽ đo khoảng cách giữa phân phối của bạn và đồng phục trong các ngày trong tuần.

Điều này tất nhiên chiếm phần gần của ngày - việc di chuyển "bụi bẩn" từ thứ Hai sang thứ Ba dễ dàng hơn từ thứ Hai đến thứ Năm, vì vậy (1 / 2,0,0,1 / 2,0,0,0) sẽ có khoảng cách động đất thấp hơn từ phân bố đồng đều so với biểu đồ tập trung vào thứ Hai và thứ Ba.

Điều này không làm là xem xét "tính tuần hoàn" trong tuần, tức là thứ bảy và chủ nhật gần nhau như chủ nhật và thứ hai. Đối với điều đó, bạn sẽ cần tìm kiếm một khoảng cách động đất được xác định trên các phân phối khối lượng xác suất tròn . Điều này nên được thực hiện bằng cách sử dụng một phương pháp tối ưu hóa phù hợp.


EDIT: Trong R, emdgói tính toán khoảng cách động đất giữa các biểu đồ.

Bạn có thể giải quyết vấn đề "tính tuần hoàn" theo cách khá đơn giản (mặc dù đặc biệt).

  • Tính khoảng cách di chuyển trái đất giữa phân phối của bạn và phân phối thống nhất vào Thứ Hai đến Chủ Nhật.d1
  • Tính khoảng cách so với phân phối đồng đều vào thứ Ba đến thứ Hai.d2
  • Tính khoảng cách so với phân phối đồng đều vào Thứ Tư đến Thứ Ba.d3
  • ...
  • Cuối cùng, là khoảng cách cuối cùng, sử dụng giá trị trung bình của .d1,,d7

Điều này quan tâm đến tính tuần hoàn với chi phí của một vài tính toán bổ sung.

EDIT thứ 2: đây không phải là khoảng cách động đất tròn như vậy. Vì thế, bạn cần xem qua một số tài liệu mà một tìm kiếm sẽ xuất hiện . Nếu cách tốt nhất để di chuyển bụi bẩn giữa các ngày liên quan đến việc di chuyển nó hai ngày từ Thứ Bảy đến Thứ Hai, thì điều này sẽ hiển thị ở năm trong số bảy , nhưng không phải trong hai ngày còn lại (nơi mà bụi bẩn sẽ cần phải di chuyển năm ngày).di

Tuy nhiên, tôi vẫn coi đây là một cách hữu ích để ít nhất xem xét tính tuần hoàn theo một cách nào đó - chắc chắn tốt hơn là chỉ sử dụng một biểu đồ duy nhất và xác định tuần là từ Chủ nhật đến Thứ bảy hoặc theo một cách tùy tiện khác. Thêm vào đó, trong khi một số liên kết ở trên bật lên các triển khai cho khoảng cách động đất tròn, tôi không biết một liên kết cho R, có lẽ là ngôn ngữ được sử dụng nhiều nhất ở đây.


3
Lúc đầu, tôi nghĩ rằng ví dụ sau (trung bình của ) là một ví dụ về cách tính khoảng cách động đất tròn và bị nhầm lẫn (vì kết quả có thể lớn hơn một số ). Sau đó, tôi nhận ra rằng câu trả lời này không ngụ ý rằng bất cứ nơi nào. Tôi không biết người khác có đọc câu trả lời này như tôi đã làm hay không, nhưng có thể tốt hơn khi nói rõ hơn rằng ví dụ này không phải là khoảng cách động đất tròn. d1,,d7di
JiK

@JiK: điểm tốt, và một điều cũng xảy ra với tôi sau khi tôi mất kết nối ngày hôm qua. Tôi đã làm rõ câu trả lời của mình để nhấn mạnh rằng đây là một vụ hack và không phải là khoảng cách di chuyển trái đất tròn thực sự.
Stephan Kolassa

1
Rất cám ơn, trên thực tế tôi đã quản lý để thực hiện khoảng cách động đất tròn trong R với gói emd và hàm emd2d, bằng cách xác định hàm khoảng cách của riêng tôi, do đó không cần sử dụng hack mà bạn đã đề cập. Điều này thật đúng với gì mà tôi đã tìm kiếm! Một vấn đề rắc rối khác: Tôi nên gọi nó là gì? Như Tim đã nói ở trên, tôi không nên gọi sự đồng nhất này. Điều gì sẽ là một tên thích hợp cho heuristic này?
EBartrum

1
Vâng, bạn đang kiểm tra tính đồng nhất, vì vậy thuật ngữ đó sẽ ổn. Những gì Tim đang tranh luận là những gì khởi hành cụ thể từ tính đồng nhất mà bạn muốn đánh giá, vì vậy bạn có thể đang tìm kiếm một thuật ngữ chính xác hơn là " không đồng nhất". Như bạn đã thảo luận, bạn không tìm kiếm sự khởi hành theo nghĩa khoảng cách , nhưng rõ ràng là theo nghĩa EMD. Tôi không thấy một cái tên hay để gọi em bé đó. Có lẽ bạn chỉ muốn rắc "EMD" lên văn xuôi của mình. "Phân phối A có nhiều EMD không đồng nhất hơn B." "A khác xa EMD hơn so với B." Không có vẻ quá thơ mộng, mặc dù. Lấy làm tiếc. L2
Stephan Kolassa
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.