Thử nghiệm Kolmogorov-Smirnov có hợp lệ với các bản phân phối rời rạc không?


29

Tôi đang so sánh một mẫu và kiểm tra xem nó có phân phối như một số, phân phối, rời rạc không. Tuy nhiên, tôi không chắc chắn rằng Kolmogorov-Smirnov áp dụng. Wikipedia dường như ngụ ý nó không. Nếu không, tôi có thể kiểm tra phân phối của mẫu bằng cách nào?


+1 Một ví dụ tuyệt vời về việc áp dụng sai Kiểm tra KS vào dữ liệu với (nhiều) mối quan hệ được đưa ra trên trang trợ giúp cho phần bổ sung thống kê Excel tại real-statistic.com/non-parametric-tests/goodness-of-fit- kiểm tra / khoan . Kết quả là sai vì nhiều lý do. Hãy cẩn thận!
whuber

Kiểm tra KS cho các bản phân phối null rời rạc có sẵn: en.wikipedia.org/wiki/iêu
Astrid

Câu trả lời:


14

Nó không áp dụng cho các bản phân phối rời rạc. Xem http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm chẳng hạn.

Có bất kỳ lý do nào bạn không thể sử dụng một bài kiểm tra mức độ phù hợp chi bình phương? xem http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm để biết thêm.


Xin lỗi vì sự xâm nhập, nhưng tôi không thực sự hiểu tại sao nó chỉ áp dụng cho phân phối liên tục (KS và các kiểm tra xác nhận khác). Ai đó có thể giải thích cho tôi thực tế này?
Maurizio

6
@Maurizio - Thống kê kiểm tra KS có cùng phân phối trong tất cả các phân phối liên tục , nhưng nếu phân phối thực tế không liên tục và người ta cố gắng xây dựng một thử nghiệm cấp giả định rằng phân phối là liên tục, thì mức thử nghiệm thực tế với ít hơn . (cf Giả thuyết thống kê của Lehmann & Romano , Ấn bản thứ ba , trang 584). Bạn vẫn có thể thực hiện kiểm tra mức dựa trên thống kê của KS, nhưng bạn sẽ phải tìm một số phương pháp khác để có được giá trị tới hạn, ví dụ như bằng mô phỏng. ααα
DavidR

Có một bài kiểm tra KS riêng biệt: stat.yale.edu/~jay/EmersonM vật liệu / ReciscGOF.pdf
Astrid

7

Như thường thấy trong thống kê, nó phụ thuộc vào ý của bạn .

  1. Nếu bạn có nghĩa là "Tôi tính toán thống kê kiểm tra của mình trên một mẫu được rút ra từ một phân phối rời rạc và sau đó tra cứu các bảng tiêu chuẩn" thì bạn sẽ nhận được tỷ lệ lỗi loại I thực sự thấp hơn so với mẫu bạn đã chọn (có thể thấp hơn rất nhiều).

    Bao nhiêu phụ thuộc vào "mức độ rời rạc" của phân phối. Nếu xác suất của bất kỳ một kết quả nào là khá thấp (do đó, tỷ lệ giá trị ràng buộc trong dữ liệu sẽ được dự kiến ​​là thấp) thì sẽ không có vấn đề gì nhiều - nhiều người sẽ không gặp vấn đề gì khi chạy 5 % kiểm tra ở mức 4,5% cho biết. Vì vậy, ví dụ, nếu bạn đang thử nghiệm một bộ đồng phục riêng biệt trên [1.1000], có lẽ bạn không cần phải lo lắng.

    Nhưng nếu có xác suất cao của giá trị bị ràng buộc, thì ảnh hưởng đến tỷ lệ lỗi loại I có thể được đánh dấu. Nếu bạn nhận được mức ý nghĩa 0,005 khi bạn muốn 0,05, đó có thể là một vấn đề, vì nó sẽ tác động tương ứng đến sức mạnh.

  2. Nếu thay vào đó, bạn có nghĩa là "Tôi tính toán thống kê thử nghiệm của mình trên một mẫu được rút ra từ phân phối rời rạc và sau đó sử dụng giá trị tới hạn phù hợp / tính giá trị p phù hợp cho tình huống của tôi" (ví dụ, thông qua thử nghiệm hoán vị), thì thử nghiệm tất nhiên là hợp lệ theo nghĩa là bạn sẽ nhận được tỷ lệ lỗi loại I phù hợp - tất nhiên là tùy theo sự thống kê của chính thống kê kiểm tra. (Mặc dù có thể có các thử nghiệm tốt hơn cho mục đích cụ thể của bạn, giống như thường có trong trường hợp liên tục.)

    Lưu ý rằng bản phân phối của thống kê kiểm tra không còn phân phối nữa mà là kiểm tra hoán vị tránh được vấn đề đó.

Vì vậy, đôi khi bạn có thể sử dụng các bảng tiêu chuẩn ngay cả với các phân phối rời rạc và ngay cả khi không ổn, thì thống kê kiểm tra không phải là giá trị quan trọng / giá trị p bạn sử dụng với vấn đề đó.


Như Glen thông thường, câu trả lời của bạn là chất lượng cao. Nhưng có lẽ phần hay nhất về nó là bạn đã thực sự lặp lại câu nói đùa mà tôi đã làm trong bài đăng này về các nhà thống kê nói rằng "nó phụ thuộc"! stats.stackexchange.com/questions/182442/ Mạnh
Sycorax nói Phục hồi lại

1
@ user777 không phải là ngẫu nhiên; nó làm tôi thích thú và tôi đã suy nghĩ khi đọc câu hỏi này "tốt, nó phụ thuộc" ... vì vậy tôi chắc chắn nói rõ ràng để lặp lại bài đăng của bạn.
Glen_b -Reinstate Monica

1
Buổi tối của tôi trở nên tốt hơn Chúc mừng!
Sycorax nói Phục hồi lại

2

Tôi tin rằng kiểm tra KS sử dụng thực tế là nếu là biến ngẫu nhiên với CDF thì là biến ngẫu nhiên thống nhất. Đây không phải là trường hợp nếu không liên tục. Ví dụ: nếu là Bernoulli thì , không phải là đồng phục.XFF(X)XXF(X)=X

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.