Các quy tắc để áp dụng mô phỏng giá trị p của Monte Carlo cho phép thử chi bình phương


9

Tôi muốn hiểu việc sử dụng mô phỏng Monte Carlo trong chisq.test()hàm trong R.

Tôi có một biến định tính có 128 cấp độ / lớp. Cỡ mẫu của tôi là 26 (Tôi không thể lấy mẫu nhiều "cá nhân" hơn). Vì vậy, rõ ràng, tôi sẽ có một số cấp độ với 0 "cá nhân". Nhưng thực tế là tôi chỉ có một số lượng rất nhỏ các lớp được đại diện trong số 127 có thể. Như tôi đã nghe nói rằng để áp dụng kiểm tra chi bình phương, chúng ta nên có ít nhất 5 cá nhân ở mỗi cấp độ (tôi không hoàn toàn hiểu lý do cho việc đó), tôi nghĩ rằng tôi phải sử dụng simulate.p.valuetùy chọn sử dụng mô phỏng Monte Carlo để ước tính phân phối và tính giá trị p. Không có mô phỏng Monte Carlo, R mang lại cho tôi giá trị p < 1e-16. Với mô phỏng Monte Carlo, nó mang lại cho tôi giá trị p tại 4e-5.

Tôi đã cố gắng tính giá trị p với một vectơ gồm 26 số và 101 số không, và với mô phỏng Monte-Carlo, tôi nhận được giá trị p là 1.

Có thể nói rõ rằng, ngay cả khi cỡ mẫu của tôi nhỏ so với số lượng các lớp có thể, phân phối quan sát được đến mức rất khó có khả năng tất cả các lớp có thể tồn tại ở cùng một xác suất (1/127) trong dân số thực ?


3
Nếu dữ liệu của bạn thực sự là bạn đã quan sát 26 lớp khác nhau trong số 26 mẫu, thì về cơ bản bạn không có bằng chứng nào chống lại giả thuyết rằng tất cả 127 lớp có xác suất như nhau. Điều này có thể được đánh giá với một tính toán phân phối đa quốc gia.
whuber

1
" Như tôi đã nghe nói rằng để áp dụng kiểm tra chi bình phương, chúng ta nên có ít nhất 5 cá nhân ở mỗi cấp độ (tôi không hoàn toàn hiểu lý do cho việc đó) " - không hoàn toàn. Lời khuyên ban đầu là số lượng dự kiến , không phải là số lượng thực tế ít nhất là 5. Mục đích với quy tắc đó (hiện đã lỗi thời) là cố gắng đảm bảo phân phối chi bình phương là một xấp xỉ hợp lý cho phân phối rời rạc của thử nghiệm thống kê. Lời khuyên trên một loạt các bài báo trong hơn 4 thập kỷ qua là 'quy tắc đó có phần quá nghiêm ngặt'.
Glen_b -Reinstate Monica

Câu trả lời:


6

Bằng cách tìm kiếm, có vẻ như điểm của Mô phỏng Monte-Carlo là tạo ra phân phối tham chiếu, dựa trên các mẫu được tạo ngẫu nhiên sẽ có cùng kích thước với mẫu được thử, để tính giá trị p khi điều kiện thử nghiệm không được thỏa mãn.

Điều này được giải thích trong Hope A. J Royal Stat Society Series B (1968) có thể được tìm thấy trên JSTOR .

Đây là một trích dẫn có liên quan từ tờ Hope:

Các quy trình thử nghiệm ý nghĩa của Monte-Carlo bao gồm việc so sánh dữ liệu quan sát được với các mẫu ngẫu nhiên được tạo ra theo giả thuyết được thử nghiệm. ... Nên sử dụng một thử nghiệm đã biết về hiệu quả tốt thay vì quy trình thử nghiệm Monte-Carlo giả định rằng giả thuyết thống kê thay thế có thể được chỉ định hoàn toàn. Tuy nhiên, không phải lúc nào cũng có thể sử dụng một thử nghiệm như vậy bởi vì các điều kiện cần thiết để áp dụng thử nghiệm có thể không được thỏa mãn hoặc phân phối cơ bản có thể không xác định hoặc có thể khó quyết định một tiêu chí thử nghiệm thích hợp.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.