Làm thế nào để giải thích giá trị p của thử nghiệm Kolmogorov-Smirnov (trăn)?


30

Tôi có hai mẫu mà tôi muốn kiểm tra (sử dụng python) nếu chúng được rút ra từ cùng một bản phân phối. Để làm điều đó tôi sử dụng hàm thống kê ks_2samp từ scipy.stats. Nó trả về 2 giá trị và tôi thấy khó khăn khi giải thích chúng. Xin hãy giúp đỡ!

Câu trả lời:


23

Như Stijn đã chỉ ra, thử nghiệm ks trả về thống kê D và giá trị p tương ứng với thống kê D. Thống kê D là khoảng cách tối đa tuyệt đối (supremum) giữa các CDF của hai mẫu. Con số này càng gần 0 thì càng có nhiều khả năng hai mẫu được rút ra từ cùng một phân phối. Kiểm tra trang Wikipedia để kiểm tra ks. Nó cung cấp một lời giải thích tốt: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

Giá trị p được trả về bởi kiểm tra ks có cùng cách hiểu với các giá trị p khác. Bạn bác bỏ giả thuyết khống rằng hai mẫu được rút ra từ cùng một phân phối nếu giá trị p nhỏ hơn mức ý nghĩa của bạn. Bạn có thể tìm thấy các bảng trực tuyến để chuyển đổi thống kê D thành giá trị p nếu bạn quan tâm đến quy trình.


Cảm ơn bạn vì câu trả lời. Thực tế, tôi biết ý nghĩa của 2 giá trị D và giá trị P nhưng tôi không thể thấy mối quan hệ giữa chúng. Làm thế nào tôi có thể xác định mức ý nghĩa? Bạn có thể cho tôi một liên kết để chuyển đổi thống kê D thành giá trị p không?
meri

Chắc chắn, bảng để chuyển đổi D stat thành p-value: soest.hawaii.edu/wessel/cifts/gg313/Critical_KS.pdf
CrossValidatedTrading

@CrossValidatedTrading: Liên kết của bạn đến bảng D-stat-to-p-value hiện là 404.
james.garriss 04/12/2015

@CrossValidatedTrading Có nên có mối quan hệ giữa giá trị p và giá trị D từ thử nghiệm KS 2 mặt không? Trong một số trường hợp, tôi đã thấy một mối quan hệ tỷ lệ, trong đó thống kê D tăng theo giá trị p. Điều đó có vẻ như ngược lại: hai đường cong có sự khác biệt lớn hơn (thống kê D lớn hơn), sẽ khác biệt đáng kể hơn (giá trị p thấp) ...
Thomas Matthew

nếu giá trị p> 0,05 thì hai mẫu của bạn phải giống hệt nhau và cân bằng.
dùng798719

5

Khi thực hiện tìm kiếm Google cho ks_2samp, lần truy cập đầu tiên là trang web này . Trên đó, bạn có thể thấy đặc tả chức năng:

This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.

Parameters : 
  a, b : sequence of 1-D ndarrays
  two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different

Returns :   
  D : float,  KS statistic
  p-value : float, two-tailed p-value

Các tham số a và b là chuỗi dữ liệu của tôi hoặc tôi nên tính toán các CDF để sử dụng ks_2samp?
meri

@meri: có một ví dụ trên trang tôi liên kết đến.
Stijn
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.