Kolmogorov-Smirnov hai mẫu


9

Tôi đang sử dụng thử nghiệm hai mẫu Kolmogorov, Smirnov để so sánh các bản phân phối và tôi nhận thấy giá trị thường được báo cáo là thống kê kiểm tra. Giá trị này được xác định như thế nào? Tôi biết đó là xác suất để có được kết quả ít nhất bằng kết quả thu được, nhưng giá trị này được xác định như thế nào khi đây là một thử nghiệm không theo dõi? Đó là, chúng ta không thể giả sử biến động Gaussian trong phân phối và tính giá trị bằng cách sử dụng -test.ppppt

Cảm ơn!


5
Thống kê Kolmogorov - Smirnov (trên lớp phân phối các biến ngẫu nhiên liên tục) là không phân phối . Vì vậy, việc phân phối thống kê kiểm tra không phụ thuộc vào phân phối cơ bản của dữ liệu (theo giả thuyết null).
Đức hồng y

2
Quan điểm của @ Hồng y được đưa ra trong một bình luận trong mục Wikipedia . Lưu ý rằng phân phối của thống kê kiểm tra là không có triệu chứng (nghĩa là hợp lệ khi kích thước mẫu nhỏ hơn tự nó lớn); nó có thể không phụ thuộc vào phân phối cơ bản phổ biến cho các mẫu nhỏ.
whuber

@whuber: Tôi sợ tôi không hiểu bình luận của bạn và tôi không muốn giải thích sai. Chắc chắn, phân phối trong các mẫu hữu hạn sẽ không hoàn toàn giống với phân phối tiệm cận, nhưng điều đó không ngăn thống kê không phân phối cho mọi kích thước mẫu cố địnhn (có thật không (n1,n2)vì kích thước có thể khác nhau). [tiếp]
hồng y

5
@whuber: ... Hãy XiFYiGđược trình tự iid độc lập. Sau đónF^n(x)=|{i:Xix}|=|{i:F(Xi)F(x)}|nG^n(x)=|{i:Yix}|=|{i:G(Yi)G(x)}|. Vì vậy, với giả định đã nói ở trênFG là các phân phối liên tục, theo giả thuyết null F=G, chúng ta thấy rằng sup|F^n(x)G^n(x)| là bằng nhau trong phân phối cho cùng một thống kê thu được từ hai độc lập U(0,1)các mẫu có cùng kích thước.
hồng y

1
@whuber: Tôi nghĩ đây là hai hiệu ứng riêng biệt nhưng tinh tế. Ở một khía cạnh nào đó, chúng tôi thích sự không triệu chứng chính xác bởi vì chúng (thường) cung cấp cho chúng tôi một thống kê "không giới hạn phân phối" (theo giới hạn của CLT). Vì vậy, thực tế là báo cáop-giá trị độc lập với giả định phân phối không phải là tất cả. Sau đó, người ta có thể hỏi, điểm thống kê không phân phối là gì nếu tôi không thể (dễ dàng) tính toán phân phối của nó cho một cỡ mẫu nhất định và thay vào đó, phải dựa vào một xấp xỉ tiệm cận? Những gì người ta dường như đạt được là một phiên bản của sự hội tụ thống nhất.
hồng y

Câu trả lời:


10

Theo giả thuyết khống, phân phối tiệm cận của thống kê Kolmogorovát Smirnov hai mẫu là phân phối Kolmogorov, có CDF

Pr(Kx)=2πxi=1e(2i1)2π2/(8x2).

Các p-giá trị có thể được tính từ CDF này - xem Phần 4Mục 2 của trang Wikipedia trong bài kiểm tra KolmogorovTHER Smirnov.

Dường như bạn đang nói rằng một thống kê kiểm tra không tham số không nên có phân phối - đó không phải là trường hợp - điều làm cho thử nghiệm này không tham số là việc phân phối thống kê kiểm tra không phụ thuộc vào phân phối xác suất liên tục của dữ liệu gốc đến từ. Lưu ý rằng kiểm tra KS có thuộc tính này ngay cả đối với các mẫu hữu hạn như được hiển thị bởi @cardinal trong các nhận xét.


3
(+1) Tôi có thể đề xuất một điều chỉnh nhỏ cho câu cuối cùng của bạn. Thống kê kiểm tra là không phân phối ngay cả trong các mẫu hữu hạn (mặc dù nó sẽ không giống với phân phối tiệm cận). Vì vậy, tài sản không phân phối này là những gì làm cho thống kê thử nghiệm không theo tỷ lệ. Lưu ý rằng có rất nhiều ví dụ trong đó phân phối tiệm cận không phụ thuộc vào phân phối liên tục cơ bản (chỉ cần nghĩ về CLT), vì vậy, trừ khi tôi nhầm, tôi không tin đó là tính năng cốt lõi ở đây. :)
Đức hồng y

Tôi đã thực hiện chỉnh sửa nhưng càng nghĩ về nó, tôi càng tự hỏi làm thế nào bạn biết rằng số liệu thống kê thực sự không phụ thuộc vào phân phối dữ liệu ban đầu trong các mẫu hữu hạn - bạn có thể nói gì thêm về @cardinal này không?
Macro

Chắc chắn rồi. Xem bình luận thứ tư (câu thứ ba của tôi) cho câu hỏi trên.
Đức hồng y

Tôi hiểu rồi! rất tuyệt và đơn giản - cảm ơn hồng y
Macro

Không ai đã giải quyết phân phối trong các mẫu nhỏ, nơi chúng ta có thể tính trực tiếp phân phối hoán vị của thống kê. Nếu chúng ta cóm X nhãn và n Ycác nhãn chúng ta có thể viết ra tất cả các thứ tự có thể có của chúng (tương ứng với các giá trị được sắp xếp từ nhỏ nhất đến lớn nhất) và có thể tính toán thống kê hai mẫu trực tiếp từ đó. Trong thực tế, thuật toán tìm giá trị p có thể được thực hiện phức tạp hơn là chỉ viết ra tất cả các khả năng (dù cách tính toán tăng nhanh nhưng phân phối tiệm cận xuất hiện khá nhanh)
Glen_b -Reinstate Monica

0

Giá trị p của, ví dụ 0,80, ngụ ý rằng 80% mẫu có kích thước n của mẫu từ dân số, sẽ có thống kê D nhỏ hơn so với mẫu thu được từ thử nghiệm. Điều này được tính toán dựa trên thống kê D của kiểm tra KS, đo khoảng cách tối đa giữa các CDF của phân phối lý thuyết và thực nghiệm, cho phân phối đã cho mà mẫu được đánh giá.

Lưu ý rằng chỉ có giá trị D * SQRT (cỡ mẫu) có phân phối kolmogrov chứ không phải bản thân D. Nếu bạn muốn tự tính toán giá trị p cho giá trị D, bạn có thể tham khảo các bảng đã xuất bản có sẵn trên internet để phân phối kolomogrov. Đây cũng là giá trị được đưa ra trong các gói như R


Đây không phải là một câu trả lời được giải thích rõ ràng.
Michael R. Chernick

Đây là phần tiếp theo của câu trả lời trước được đăng bởi Macro ở trên. Không giống như những gì đã được nhiều người tin tưởng, giá trị p được tính theo gói R là hoàn hảo. Điều đó có nghĩa là nếu bạn lấy mọi mẫu có thể có kích thước nhất định từ dân số và so sánh nó với phân phối lý thuyết, giá trị của [khoảng cách tối đa D * SQRT (cỡ mẫu)] được tính theo từng mẫu, sẽ có phân phối kolomogrov. Đối với một thống kê D nhất định, gói R đưa ra giá trị xác suất rằng mẫu của chênh lệch đã cho thuộc về dân số lý thuyết, 0,8 có nghĩa là chỉ 20% sẽ có D
Murugesan Narayanaswamy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.