Tôi muốn hiểu việc sử dụng mô phỏng Monte Carlo trong chisq.test()
hàm trong R.
Tôi có một biến định tính có 128 cấp độ / lớp. Cỡ mẫu của tôi là 26 (Tôi không thể lấy mẫu nhiều "cá nhân" hơn). Vì vậy, rõ ràng, tôi sẽ có một số cấp độ với 0 "cá nhân". Nhưng thực tế là tôi chỉ có một số lượng rất nhỏ các lớp được đại diện trong số 127 có thể. Như tôi đã nghe nói rằng để áp dụng kiểm tra chi bình phương, chúng ta nên có ít nhất 5 cá nhân ở mỗi cấp độ (tôi không hoàn toàn hiểu lý do cho việc đó), tôi nghĩ rằng tôi phải sử dụng simulate.p.value
tùy chọn sử dụng mô phỏng Monte Carlo để ước tính phân phối và tính giá trị p. Không có mô phỏng Monte Carlo, R mang lại cho tôi giá trị p < 1e-16
. Với mô phỏng Monte Carlo, nó mang lại cho tôi giá trị p tại 4e-5
.
Tôi đã cố gắng tính giá trị p với một vectơ gồm 26 số và 101 số không, và với mô phỏng Monte-Carlo, tôi nhận được giá trị p là 1.
Có thể nói rõ rằng, ngay cả khi cỡ mẫu của tôi nhỏ so với số lượng các lớp có thể, phân phối quan sát được đến mức rất khó có khả năng tất cả các lớp có thể tồn tại ở cùng một xác suất (1/127) trong dân số thực ?