Tôi có ba nhóm dữ liệu, mỗi nhóm có phân phối nhị thức (tức là mỗi nhóm có các yếu tố là thành công hoặc thất bại). Tôi không có xác suất dự đoán thành công, nhưng thay vào đó chỉ có thể dựa vào tỷ lệ thành công của từng người như một xấp xỉ cho tỷ lệ thành công thực sự. Tôi chỉ tìm thấy câu hỏi này , rất gần nhưng dường như không giải quyết chính xác với kịch bản này.
Để đơn giản hóa bài kiểm tra, hãy nói rằng tôi có 2 nhóm (3 nhóm có thể được mở rộng từ trường hợp cơ sở này).
- Thử nghiệm nhóm 1: = 2455
- Thử nghiệm nhóm 2: = 2730
- Thành công của nhóm 1: = 1556
- Nhóm 2 thành công: = 1671
Tôi không có xác suất thành công như mong đợi, chỉ những gì tôi biết từ các mẫu. Vì vậy, tỷ lệ thành công ngụ ý của tôi cho hai nhóm là:
- Tỷ lệ thành công của nhóm 1: = 1556/2455 = 63,4%
- Tỷ lệ thành công của nhóm 2: = 1671/2730 = 61,2%
Tỷ lệ thành công của từng mẫu khá gần nhau. Tuy nhiên kích thước mẫu của tôi cũng khá lớn. Nếu tôi kiểm tra CDF của phân phối nhị thức để xem nó khác với lần đầu tiên như thế nào (trong đó tôi giả sử lần đầu tiên là kiểm tra null) tôi có một xác suất rất nhỏ rằng lần thứ hai có thể đạt được.
Trong Excel:
1-BINOM.DIST (1556,2455,61,2%, THẬT) = 0,012
Tuy nhiên, điều này không tính đến bất kỳ phương sai nào của kết quả đầu tiên, nó chỉ giả sử kết quả đầu tiên là xác suất thử nghiệm.
Có cách nào tốt hơn để kiểm tra xem hai mẫu dữ liệu này có thực sự khác biệt về mặt thống kê với nhau không?
prop.test
: prop.test(c(1556, 1671), c(2455, 2730))
.