Đây là câu trả lời cho @vinesh cũng như xem xét nguyên tắc chung trong câu hỏi ban đầu.
Thực sự có 2 vấn đề ở đây với nhiều so sánh: khi chúng tôi tăng số lượng so sánh được thực hiện, chúng tôi có nhiều thông tin hơn giúp dễ dàng nhận thấy sự khác biệt thực sự, nhưng số lượng so sánh tăng lên cũng giúp dễ dàng thấy sự khác biệt không tồn tại (dương tính giả, nạo vét dữ liệu, tra tấn dữ liệu cho đến khi nó thú nhận).
Hãy nghĩ về một lớp học với 100 sinh viên, mỗi sinh viên được tặng một đồng xu công bằng và được yêu cầu lật đồng xu 10 lần và sử dụng kết quả để kiểm tra giả thuyết khống rằng tỷ lệ người đứng đầu là 50%. Chúng tôi hy vọng giá trị p nằm trong khoảng từ 0 đến 1 và chỉ tình cờ chúng tôi mong đợi sẽ thấy khoảng 5 trong số các sinh viên nhận được giá trị p nhỏ hơn 0,05. Trong thực tế, chúng tôi sẽ rất ngạc nhiên nếu không ai trong số họ có được giá trị p nhỏ hơn 0,05 (ít hơn 1% cơ hội điều đó xảy ra). Nếu chúng ta chỉ nhìn vào một vài giá trị quan trọng và bỏ qua tất cả các giá trị khác thì chúng ta sẽ kết luận sai rằng các đồng tiền bị sai lệch, nhưng nếu chúng ta sử dụng một kỹ thuật có tính đến nhiều so sánh thì chúng ta vẫn có thể đánh giá chính xác rằng các đồng tiền là công bằng (hoặc ít nhất là không từ chối rằng họ hoặc công bằng).
Mặt khác, hãy xem xét một trường hợp tương tự khi chúng tôi có 10 học sinh lăn một cái chết và xác định xem giá trị nằm trong tập {1,2,3} hay tập {4,5,6} mỗi trường sẽ có 50% cơ hội mỗi cuộn nếu chết là công bằng (nhưng có thể khác nhau nếu chết được gian lận). Tất cả 10 sinh viên tính giá trị p (null là 50%) và nhận giá trị trong khoảng 0,06 đến 0,25. Bây giờ trong trường hợp này, không ai trong số họ đạt được mức cắt giảm 5% kỳ diệu, vì vậy nhìn vào bất kỳ kết quả học sinh cá nhân nào sẽ không dẫn đến một tuyên bố không công bằng, nhưng tất cả các giá trị p đều nhỏ hơn 0,5, nếu tất cả các con xúc xắc đều công bằng sau đó các giá trị p phải được phân phối đồng đều và có 50% cơ hội trên 0,5. Cơ hội nhận được 10 giá trị p độc lập tất cả nhỏ hơn 0,5 khi null là đúng so với phép thuật 0,05 và điều này cho thấy rằng súc sắc bị sai lệch,
Bây giờ lật đồng xu và chết lăn là một chút giả tạo, vì vậy một ví dụ khác: tôi có một loại thuốc mới mà tôi muốn thử nghiệm. Ngân sách của tôi cho phép tôi thử nghiệm thuốc trên 1.000 đối tượng (đây sẽ là một so sánh được ghép nối với từng đối tượng là sự kiểm soát của chính họ). Tôi đang xem xét 2 thiết kế nghiên cứu khác nhau, trong lần đầu tiên tôi tuyển dụng 1.000 đối tượng thực hiện nghiên cứu và báo cáo một giá trị p duy nhất. Trong thiết kế thứ hai, tôi tuyển dụng 1.000 đối tượng nhưng chia chúng thành 100 nhóm 10 nhóm, tôi thực hiện nghiên cứu trên từng nhóm trong số 100 nhóm 10 và tính giá trị p cho mỗi nhóm (tổng 100 giá trị p). Hãy suy nghĩ về sự khác biệt tiềm năng giữa 2 phương pháp và cách kết luận có thể khác nhau. Một cách tiếp cận khách quan sẽ yêu cầu cả hai thiết kế nghiên cứu đều dẫn đến cùng một kết luận (với cùng 1.000 bệnh nhân và mọi thứ khác đều giống nhau).
@mljrg, tại sao bạn lại chọn so sánh g1 và g2? Nếu đây là câu hỏi đáng quan tâm trước khi thu thập bất kỳ dữ liệu nào thì giá trị p của MW là hợp lý và có ý nghĩa, tuy nhiên nếu bạn đã thực hiện kiểm tra KW, thì hãy xem thử xem 2 nhóm nào khác nhau nhất và chỉ kiểm tra MW trên các nhóm đó Nhìn khác nhau nhất, sau đó các giả định cho thử nghiệm MW đã bị vi phạm và giá trị p của MW là vô nghĩa và giá trị p là giá trị duy nhất có ý nghĩa tiềm năng.