Tôi muốn hiểu thử nghiệm chính xác của ngư dân tốt hơn, vì vậy tôi đã nghĩ ra ví dụ đồ chơi sau đây, trong đó f và m tương ứng với nam và nữ, và n và y tương ứng với "tiêu thụ soda" như thế này:
> soda_gender
f m
n 0 5
y 5 0
Rõ ràng, đây là một sự đơn giản hóa mạnh mẽ, nhưng tôi không muốn bối cảnh cản trở. Ở đây tôi chỉ cho rằng nam giới không uống soda và nữ giới uống soda, và muốn xem liệu các quy trình thống kê có đưa ra kết luận tương tự hay không.
Khi tôi chạy thử nghiệm chính xác câu cá trong R, tôi nhận được kết quả như sau:
> fisher.test(soda_gender)
Fisher's Exact Test for Count Data
data: soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.0000000 0.4353226
sample estimates:
odds ratio
0
Ở đây, vì giá trị p là 0,007937, chúng tôi sẽ kết luận rằng tiêu thụ giới tính và soda có liên quan.
Tôi biết rằng thử nghiệm chính xác của ngư dân có liên quan đến phân phối hypergeomteric. Vì vậy, tôi muốn có được kết quả tương tự bằng cách sử dụng đó. Nói cách khác, bạn có thể xem vấn đề này như sau: có 10 quả bóng, trong đó 5 quả bóng được dán nhãn là "nam" và 5 quả bóng được dán nhãn là "nữ" và bạn rút ngẫu nhiên 5 quả bóng mà không cần thay thế và bạn thấy 0 quả bóng nam . Cơ hội của quan sát này là gì? Để trả lời câu hỏi này, tôi đã sử dụng lệnh sau:
> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254
Câu hỏi của tôi là: 1) Hai kết quả khác nhau như thế nào? 2) Có bất cứ điều gì không chính xác hoặc không nghiêm ngặt trong lý luận của tôi ở trên?