Tôi đang cố gắng áp dụng thử nghiệm chính xác của Fisher trong một vấn đề di truyền mô phỏng, nhưng các giá trị p dường như bị lệch sang phải. Là một nhà sinh vật học, tôi đoán rằng tôi chỉ thiếu một cái gì đó rõ ràng cho mọi nhà thống kê, vì vậy tôi sẽ đánh giá rất cao sự giúp đỡ của bạn.
Thiết lập của tôi là thế này: (thiết lập 1, lề không cố định)
Hai mẫu 0 và 1 được tạo ngẫu nhiên trong R. Mỗi mẫu n = 500, xác suất lấy mẫu 0 và 1 bằng nhau. Sau đó, tôi so sánh tỷ lệ 0/1 trong mỗi mẫu với thử nghiệm chính xác của Fisher (chỉ fisher.test
; cũng đã thử các phần mềm khác có kết quả tương tự). Lấy mẫu và thử nghiệm được lặp lại 30 000 lần. Các giá trị p kết quả được phân phối như thế này:
Giá trị trung bình của tất cả các giá trị p là khoảng 0,55, phần trăm thứ 5 ở 0,0577. Ngay cả phân phối xuất hiện không liên tục ở phía bên phải.
Tôi đã đọc mọi thứ tôi có thể, nhưng tôi không tìm thấy bất kỳ dấu hiệu nào cho thấy hành vi này là bình thường - mặt khác, nó chỉ là dữ liệu mô phỏng, vì vậy tôi không thấy nguồn nào cho bất kỳ sự thiên vị nào. Có điều chỉnh nào tôi bỏ lỡ? Cỡ mẫu quá nhỏ? Hoặc có lẽ nó không được phân phối đồng đều và các giá trị p được diễn giải khác nhau?
Hay tôi chỉ nên lặp lại điều này một triệu lần, tìm định lượng 0,05 và sử dụng nó làm mức cắt giảm ý nghĩa khi tôi áp dụng điều này vào dữ liệu thực tế?
Cảm ơn!
Cập nhật:
Michael M đề nghị sửa các giá trị biên của 0 và 1. Bây giờ các giá trị p cung cấp phân phối đẹp hơn nhiều - thật không may, nó không đồng nhất, cũng không có hình dạng nào khác tôi nhận ra:
thêm mã R thực tế: (thiết lập 2, cố định lề)
samples=c(rep(1,500),rep(2,500))
alleles=c(rep(0,500),rep(1,500))
p=NULL
for(i in 1:30000){
alleles=sample(alleles)
p[i]=fisher.test(samples,alleles)$p.value
}
hist(p,breaks=50,col="grey",xlab="p-values",main="")
Chỉnh sửa cuối cùng:
Như whuber chỉ ra trong các bình luận, các khu vực chỉ trông bị méo do đóng thùng. Tôi đang đính kèm các lô QQ cho thiết lập 1 (lề miễn phí) và thiết lập 2 (lề cố định). Các sơ đồ tương tự được nhìn thấy trong các mô phỏng của Glen bên dưới, và tất cả các kết quả này trên thực tế có vẻ khá thống nhất. Cảm ơn đã giúp đỡ!