Việc tách mẫu có thể làm giảm vấn đề với việc phân phối số liệu thống kê, nhưng nó không loại bỏ nó.
Ý tưởng của bạn tránh được vấn đề rằng các ước tính sẽ 'quá gần' so với các giá trị dân số vì chúng dựa trên cùng một mẫu.
Bạn không tránh khỏi vấn đề mà họ vẫn ước tính. Phân phối của thống kê kiểm tra không phải là bảng.
Trong trường hợp này, nó làm tăng tỷ lệ loại bỏ dưới giá trị null, thay vì giảm đáng kể.
Một lựa chọn tốt hơn là sử dụng thử nghiệm trong đó các tham số không được giả định đã biết, chẳng hạn như Shapiro Wilk.
Nếu bạn đã kết hôn với loại thử nghiệm Kolmogorov-Smirnov, bạn có thể thực hiện phương pháp thử nghiệm của Lilliefors.
Nghĩa là, để sử dụng thống kê KS nhưng có phân phối thống kê kiểm tra phản ánh hiệu quả của ước lượng tham số - mô phỏng phân phối thống kê kiểm tra theo ước tính tham số. (Nó không còn phân phối nữa, vì vậy bạn cần các bảng mới cho mỗi phân phối.)
http://en.wikipedia.org/wiki/Lilliefors_test
Liliefors đã sử dụng mô phỏng cho trường hợp bình thường và theo cấp số nhân, nhưng bạn có thể dễ dàng thực hiện nó cho bất kỳ phân phối cụ thể nào; trong một cái gì đó giống như R, việc mô phỏng 10.000 hoặc 100.000 mẫu và phân phối thống kê kiểm tra dưới giá trị là một vấn đề.
[Một cách khác có thể là xem xét Anderson-Darling, người có cùng một vấn đề, nhưng - đánh giá từ cuốn sách của D'Agostino và Stephens ( Goodness-of-fit-kỹ thuật ) dường như ít nhạy cảm hơn với nó. Bạn có thể điều chỉnh ý tưởng Lilliefors, nhưng họ đề xuất một điều chỉnh tương đối đơn giản có vẻ hoạt động khá tốt.]
Nhưng vẫn có những cách tiếp cận khác; có những gia đình kiểm tra trơn tru về mức độ phù hợp, ví dụ (ví dụ xem cuốn sách của Rayner và Best) rằng trong một số trường hợp cụ thể có thể xử lý ước tính tham số.
* hiệu ứng vẫn có thể khá lớn - có lẽ lớn hơn bình thường sẽ được coi là chấp nhận được; Momo có quyền bày tỏ mối quan tâm về nó. Nếu tỷ lệ lỗi loại I cao hơn (và đường cong công suất phẳng hơn) là một vấn đề, thì đây có thể không phải là một sự cải thiện!