Tại sao thống kê p-value và ks-test giảm khi tăng cỡ mẫu? Lấy mã Python này làm ví dụ:
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
Kết quả là:
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
Theo trực giác tôi hiểu rằng khi n phát triển, thử nghiệm "chắc chắn hơn" hai phân phối là khác nhau. Nhưng nếu cỡ mẫu rất lớn, điểm nào trong các thử nghiệm tương tự như thế này và nói thử nghiệm Anderson Darling, hoặc thử nghiệm t, bởi vì trong những trường hợp như vậy khi n rất lớn, các phân phối sẽ luôn được tìm thấy "khác nhau đáng kể!? Bây giờ tôi đang tự hỏi những gì trên trái đất điểm của giá trị p là. Nó phụ thuộc rất nhiều vào kích thước mẫu ... nếu p> 0,05 và bạn muốn nó thấp hơn, chỉ cần lấy thêm dữ liệu; và nếu p <0,05 và bạn muốn nó cao hơn, chỉ cần xóa một số dữ liệu.
Ngoài ra, nếu hai phân phối giống hệt nhau, thống kê kiểm tra ks sẽ là 0 và giá trị p 1. Nhưng trong ví dụ của tôi, khi n tăng thống kê kiểm tra ks cho thấy các phân phối ngày càng giống nhau theo thời gian (giảm) , nhưng theo giá trị p, chúng trở nên ngày càng khác biệt theo thời gian (cũng giảm dần).