Câu hỏi dành cho người mới bắt đầu:
Tôi muốn kiểm tra xem hai bộ dữ liệu rời rạc có đến từ cùng một phân phối hay không. Một thử nghiệm Kolmogorov-Smirnov đã được đề xuất cho tôi.
Conover (Số liệu thống kê phi thực tế , 3d) dường như nói rằng Thử nghiệm Kolmogorov-Smirnov có thể được sử dụng cho mục đích này, nhưng hành vi của nó là "bảo thủ" với các phân phối rời rạc và tôi không chắc điều đó có nghĩa gì ở đây.
Nhận xét của DavidR về một câu hỏi khác cho biết "... Bạn vẫn có thể thực hiện bài kiểm tra cấp độ α dựa trên thống kê của KS, nhưng bạn sẽ phải tìm một số phương pháp khác để có được giá trị tới hạn, ví dụ như bằng mô phỏng."
Phiên bản của ks.test () trong gói dgof R ( bài viết , cran ) bổ sung một số khả năng không có trong phiên bản mặc định của ks.test () trong gói thống kê. Trong số những thứ khác, dgof :: ks.test bao gồm tham số này:
simulation.p.value: một logic cho biết có nên tính giá trị p bằng mô phỏng Monte Carlo hay không, chỉ dành cho các thử nghiệm độ phù hợp riêng biệt.
Mục đích của simulation.p.value = T để thực hiện những gì DavidR gợi ý?
Ngay cả nếu có, tôi không chắc liệu tôi có thể thực sự sử dụng dgof :: ks.test cho thử nghiệm hai mẫu hay không. Có vẻ như nó chỉ cung cấp một bài kiểm tra hai mẫu để phân phối liên tục:
Nếu y là số, một phép thử hai mẫu của giả thuyết null cho rằng x và y được rút ra từ cùng một phân phối liên tục được thực hiện.
Ngoài ra, y có thể là một chuỗi ký tự đặt tên hàm phân phối (tích lũy) liên tục (hoặc một hàm như vậy) hoặc hàm ecdf (hoặc đối tượng của stepfun lớp) để phân phối rời rạc. Trong những trường hợp này, thử nghiệm một mẫu được thực hiện bằng null mà hàm phân phối tạo ra x là phân phối y ....
(Chi tiết cơ bản: Nói đúng ra, các phân phối cơ bản của tôi là liên tục, nhưng dữ liệu có xu hướng nằm rất gần một số điểm. Mỗi điểm là kết quả của một mô phỏng và là trung bình của 10 hoặc 20 số thực giữa -1 và 1. Khi kết thúc mô phỏng, các số đó gần như luôn luôn rất gần với .9 hoặc -.9. Do đó, cụm có nghĩa là xung quanh một vài giá trị và tôi coi chúng là rời rạc. Mô phỏng rất phức tạp và tôi không có lý do để nghĩ rằng dữ liệu tuân theo phân phối nổi tiếng.)
Lời khuyên?