Câu trả lời:
Có khá nhiều thảo luận về điều này trên trang web AP .
Bạn có thể sử dụng bất kỳ số liệu thống kê nào bạn muốn, miễn là bạn rõ ràng về những gì bạn làm và xem phân phối null phù hợp để tính giá trị p hoặc ngưỡng.
Nhưng một số thống kê tốt hơn so với những người khác; trong trường hợp này, bạn sẽ tìm kiếm (a) phân phối null dễ dàng tính toán và (b) sức mạnh để phát hiện sự khác biệt.
Nhưng tôi không biết lý do tại sao bạn lại thích phương sai không phân biệt so với phương sai gộp cho thử nghiệm, mặc dù nó có thể được ưu tiên trong việc tính toán khoảng tin cậy cho sự khác biệt.
Phương sai không liên kết có xu hướng quá nhỏ. Điều này là do theo giả thuyết null, vẫn sẽ có sự thay đổi cơ hội theo hai tỷ lệ quan sát được, mặc dù các xác suất cơ bản là bằng nhau. Sự thay đổi cơ hội này góp phần vào phương sai gộp nhưng không phải là phương sai không được chia.
Kết quả là, cho thống kê chưa được phân tích thậm chí không có phân phối chuẩn bình thường. Chẳng hạn, khi và xác suất thực là cả , phương sai của chỉ bằng thay vì . Bằng cách sử dụng các bảng của phân phối chuẩn thông thường, bạn sẽ nhận được giá trị p không chính xác: chúng sẽ có xu hướng nhỏ một cách giả tạo, quá thường xuyên từ chối null khi bằng chứng không thực sự ở đó.
Tuy nhiên, người ta tự hỏi liệu điều này có thể được sửa chữa. Nó có thể. Câu hỏi đặt ra là liệu giá trị đã được hiệu chỉnh , dựa trên các ước tính chưa được tạo, có thể có sức mạnh lớn hơn để phát hiện các sai lệch so với giả thuyết không. Một vài mô phỏng nhanh cho thấy đây không phải là trường hợp: thử nghiệm gộp (so với thử nghiệm chưa được điều chỉnh đúng) có cơ hội từ chối null tốt hơn bất cứ khi nào null là sai. Vì vậy, tôi đã không bận tâm để tìm ra công thức cho sự điều chỉnh chưa được chỉnh sửa; nó dường như vô nghĩa.
Tóm lại, bài kiểm tra không có kết quả là sai, nhưng với một sự điều chỉnh thích hợp, nó có thể được thực hiện hợp pháp. Tuy nhiên, nó dường như kém hơn so với thử nghiệm gộp.