Làm thế nào để đo lường sự không đồng đều của một phân phối?


28

Tôi đang cố gắng đưa ra một số liệu để đo lường sự không đồng đều của phân phối cho một thử nghiệm tôi đang chạy. Tôi có một biến ngẫu nhiên nên được phân phối đồng đều trong hầu hết các trường hợp và tôi muốn có thể xác định (và có thể đo lường mức độ) của các tập dữ liệu trong đó biến không được phân phối đồng đều trong một số lề.

Một ví dụ về ba chuỗi dữ liệu, mỗi chuỗi có 10 phép đo đại diện cho tần suất xuất hiện của thứ gì đó mà tôi đang đo có thể giống như thế này:

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

Tôi muốn có thể phân biệt các phân phối như c với các phân phối như a và b và đo độ lệch của c so với phân phối đồng đều. Tương tự, nếu có một số liệu về mức độ phân phối đồng đều (độ lệch chuẩn gần bằng 0?), Có lẽ tôi có thể sử dụng số liệu đó để phân biệt các phân phối có phương sai cao. Tuy nhiên, dữ liệu của tôi có thể chỉ có một hoặc hai ngoại lệ, như ví dụ c ở trên và không chắc chắn liệu điều đó có dễ dàng phát hiện theo cách đó hay không.

Tôi có thể hack một cái gì đó để làm điều này trong phần mềm, nhưng đang tìm kiếm các phương pháp / phương pháp thống kê để biện minh cho việc này một cách chính thức. Tôi đã tham gia một lớp học nhiều năm trước, nhưng số liệu thống kê không phải là lĩnh vực của tôi. Điều này có vẻ như một cái gì đó nên có một cách tiếp cận nổi tiếng. Xin lỗi nếu bất kỳ điều này là hoàn toàn đầu xương. Cảm ơn trước!


Câu trả lời:


18

Nếu bạn không chỉ có tần số mà cả số lượng thực tế, bạn có thể sử dụng phép thử độ phù hợp cho mỗi chuỗi dữ liệu. Cụ thể, bạn muốn sử dụng thử nghiệm cho phân phối thống nhất rời rạc . Điều này cung cấp cho bạn một bài kiểm tra tốt , cho phép bạn tìm ra chuỗi dữ liệu nào có khả năng không được tạo bởi phân phối thống nhất, nhưng không cung cấp thước đo về tính đồng nhất.χ2

Có nhiều cách tiếp cận khả thi khác, chẳng hạn như tính toán entropy của từng chuỗi - phân phối đồng đều tối đa hóa entropy, vì vậy nếu entropy thấp đáng ngờ, bạn sẽ kết luận rằng có thể bạn không có phân phối đồng đều. Điều đó hoạt động như một thước đo của sự đồng nhất trong một số ý nghĩa.

Một đề nghị khác là sử dụng một biện pháp như phân kỳ Kullback - Leibler , đo lường sự giống nhau của hai phân phối.


Tôi có một vài câu hỏi liên quan đến câu trả lời của bạn: 1. Tại sao bạn nói rằng chi bình phương không đưa ra thước đo về tính đồng nhất? Không phải là một thử nghiệm phù hợp với phân phối đồng đều là thước đo độ đồng đều? 2. Làm thế nào chúng ta có thể biết khi nào chúng ta nên sử dụng chi-vuông hoặc entropy?
kanzen_master

@kanzen_master: Tôi đoán rằng số liệu thống kê chi bình phương có thể được xem là thước đo tính đồng nhất, nhưng nó có một số nhược điểm, như thiếu sự hội tụ, phụ thuộc vào các thùng được đặt tùy ý, số lượng đếm dự kiến ​​trong các ô cần đủ lớn, v.v. Tuy nhiên, biện pháp / thử nghiệm nào được sử dụng là vấn đề của hương vị, và entropy không phải là không có vấn đề của nó (đặc biệt, có nhiều ước tính khác nhau về entropy của phân phối). Đối với tôi, entropy có vẻ như là một biện pháp ít độc đoán hơn và dễ giải thích hơn.
MånsT

8

Ngoài những ý tưởng hay của @MansT, bạn có thể đưa ra các biện pháp khác, nhưng nó phụ thuộc vào ý của bạn là "không đồng nhất". Để đơn giản, chúng ta hãy nhìn vào 4 cấp độ. Tính đồng nhất hoàn hảo rất dễ xác định:

25 25 25 25

nhưng cái nào sau đây là không đồng đều hơn?

20 20 30 30 hoặc 20 20 25 35

hoặc chúng không đồng đều như nhau?

nếu bạn nghĩ rằng chúng không đồng đều như nhau, bạn có thể sử dụng thước đo dựa trên tổng giá trị tuyệt đối của độ lệch so với bình thường, được chia tỷ lệ tối đa có thể. Sau đó, lần đầu tiên là 5 + 5 + 5 + 5 = 20 và lần thứ hai là 5 + 5 + 0 + 10 = 20. Nhưng nếu bạn nghĩ rằng lần thứ hai là không đồng nhất, bạn có thể sử dụng một cái gì đó dựa trên độ lệch bình phương trong trường hợp đó đầu tiên được 25 + 25 + 25 + 25 = 100 và lần thứ hai được 25 + 25 + 0 + 100 = 150.


1
Có vẻ như bạn đang hiểu "phân phối đồng đều" là "bằng nhau", Peter. Cho dù đó là ý định của OP là một điểm hợp lệ để nêu ra, nhưng thực sự nên xuất hiện dưới dạng một nhận xét cho câu hỏi.
whuber

Xin chào @whuber Đó dường như là những gì anh ấy muốn nói, từ câu hỏi. Nó có thể có ý nghĩa gì khác?
Peter Flom - Tái lập Monica

2
"Bình đẳng" có nghĩa là các CDF là cho x μ , F ( x ) = 0 cho x < μ trong khi "thống nhất" có nghĩa là F ( x ) = ( xF(x)=1xμF(x)=0x<μ cho x [ α , α + θ ] . BạnF(x)=(xα)/θx[α,α+θ] định nghĩa "tính đồng nhất hoàn hảo" theo nghĩa thứ nhất trong khi ý nghĩa thống kê tiêu chuẩn là thứ hai.
whuber

@whuber, đối với tôi, điều đầu tiên là gần với ý nghĩa của poster ban đầu của "đồng phục". Nhìn vào nó một lần nữa, có vẻ như anh ấy / cô ấy đang sử dụng "đồng phục" có nghĩa là "phương sai thấp".
Macro

Chỉ có vậy thôi, Macro: chúng ta thực sự không thể nói. Câu hỏi cần được làm rõ trước khi nó xứng đáng có câu trả lời, IMHO. Câu trả lời được chấp nhận cho thấy OP đã sử dụng "đồng phục" theo nghĩa thống kê tiêu chuẩn.
whuber

6

Đây là một heuristic đơn giản: nếu bạn giả sử các phần tử trong bất kỳ vectơ nào thành (hoặc đơn giản là chuẩn hóa từng phần tử với tổng để đạt được điều này), thì tính đồng nhất có thể được biểu thị bằng định mức L2, nằm trong khoảng từ 11 đến1, vớidlà kích thước của vectơ.1d1d

Giới hạn dưới tương ứng với tính đồng nhất và giới hạn trên củavectơ1-hot.1d1

Để mở rộng quy mô này để điểm giữa 1 , bạn có thể sử dụng n * 01, trong đónlà định mức L2.nd1d1n

Một ví dụ được sửa đổi từ của bạn với các phần tử tổng hợp thành và tất cả các vectơ có cùng kích thước để đơn giản:1

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

Sau đây sẽ mang lại , 0,0051 , và0.00280.0051 cho các hàng:0.4529

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end

1
Điều đó làm việc độc đáo. Nhưng tại sao (hoặc trong hoàn cảnh nào) nên ưu tiên cho bất kỳ định mức nào khác hoặc cho các giải pháp khác được cung cấp trên chuỗi này? Lp
whuber

@whuber mà tôi không biết và tôi không biết về bất kỳ nghiên cứu nào về việc này. Về cơ bản đó là thứ mà tôi đã sử dụng như một heuristic có thể phù hợp với những gì OP đang theo đuổi và tôi không thực sự khẳng định đó là một cách tiếp cận ưa thích.
user495285

@whuber - Bạn có thể tìm ra lý thuyết tại sao điều này hoạt động tốt như vậy. Tôi cần trích dẫn điều này.
Ketan

@ user495285 - Điều này dường như hoạt động trực tiếp với các giá trị, và không chỉ tần số. Theo kinh nghiệm của bạn, tốt hơn là chỉ sử dụng nó với tần số hoặc sử dụng trực tiếp trên vector.
Ketan

@Ketan Tôi sẽ khuyên bạn không nên trích dẫn bài đăng này, vì nó không được hỗ trợ về mặt lý thuyết và lý thuyết. (Bởi vì nó không dựa vào bất kỳ sự xem xét nào về biến thể lấy mẫu, nên không có cách nào để nói - mà không cần phân tích thêm - dù điều đó có tốt hay không.) Tuy nhiên, điều đó chỉ xảy raL2χ2

0

Gần đây đã vấp phải điều này và để thêm vào câu trả lời từ @ user495285, theo như tôi hiểu:

Khi các giá trị được chuẩn hóa và tổng thành một, thì phân phối đồng đều là khối cầu đơn vị trong RnLppRnp .

L2p nơi ít trọng lượng trên độ lệch lớn.

nd1d1
nL2d

Tôi tin rằng tính hữu ích của các biện pháp hình học được áp dụng khi từng vị trí (kích thước) của không gian được mô tả được giả định là được đo trên các tỷ lệ tương đương, ví dụ: tất cả các tổng số có khả năng phân phối bằng nhau. Các giả định tương tự thay đổi cơ bản của các cơ sở như PCA / SVD có thể giống nhau ở đây. Nhưng sau đó một lần nữa tôi không phải là nhà toán học, vì vậy tôi sẽ để mở cho nhiều thông tin hơn.


Âm thanh hữu ích. Bạn có thể vui lòng chỉ cho tôi một số tài liệu tham khảo, để tôi có thể hiểu điều này tốt hơn? Tôi thực sự cần phải trích dẫn điều này.
Ketan

Bạn có thể trích dẫn bất kỳ văn bản đại số tuyến tính nào bao gồm định mức Lp; đây là một chủ đề rất phổ biến trong hình học: làm thế nào để tính khoảng cách giữa hai điểm trong không gian N chiều. Bạn thậm chí có thể không phải trích dẫn nó tùy thuộc vào lĩnh vực của bạn.
lakinsm
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.