Đây rõ ràng sẽ là một cơn ác mộng tuyệt đối phải làm trong thực tế, nhưng giả sử nó có thể được thực hiện: chúng tôi chỉ định một Quốc vương thống kê và mọi người đang chạy thử nghiệm giả thuyết báo cáo giá trị thô của họ đối với người tuyệt vọng này. Ông thực hiện một số loại toàn cầu (theo nghĩa đen) nhiều so sánh hiệu chỉnh và trả lời với các phiên bản đã sửa.p
Điều này sẽ mở ra một kỷ nguyên vàng của khoa học và lý trí? Không, có lẽ là không.
Hãy bắt đầu bằng cách xem xét một cặp giả thuyết, như trong một
tH0:HMột: Các nhóm có cùng một ý nghĩa. Các nhóm có phương tiện khác nhau.
H0H0Giả thuyết theo một nghĩa nào đó là "nhàm chán", và các nhà nghiên cứu thường quan tâm đến việc tránh tình huống "dương tính giả" trong đó họ tuyên bố đã tìm thấy sự khác biệt giữa các nhóm không thực sự tồn tại. Do đó, chúng tôi chỉ gọi kết quả là "có ý nghĩa" nếu chúng dường như không thể xảy ra theo giả thuyết khống, và theo quy ước, ngưỡng không phù hợp đó được đặt ở mức 5%.
H0
Nhiều cách tiếp cận sửa chữa khác nhau nhằm giúp bạn lấy lại tỷ lệ lỗi danh nghĩa mà bạn đã chọn để chịu đựng cho các thử nghiệm riêng lẻ. Họ làm như vậy theo những cách hơi khác nhau. Các phương pháp kiểm soát Tỷ lệ lỗi khôn ngoan của gia đình , như các thủ tục Bonferroni , Sidak và Holm , nói rằng "Bạn muốn có 5% cơ hội mắc lỗi trong một bài kiểm tra, vì vậy chúng tôi sẽ đảm bảo rằng bạn không quá 5 % cơ hội mắc bất kỳ lỗi nào trong tất cả các bài kiểm tra của bạn. " Các phương pháp kiểm soát Tỷ lệ Khám phá Saithay vì nói "Bạn rõ ràng ổn với việc sai đến 5% thời gian với một bài kiểm tra, vì vậy chúng tôi sẽ đảm bảo rằng không quá 5% 'cuộc gọi' của bạn sai khi thực hiện nhiều bài kiểm tra". (Thấy sự khác biệt?)
Bây giờ, giả sử bạn đã cố gắng kiểm soát tỷ lệ lỗi thông minh của gia đình là
tất cả các bài kiểm tra giả thuyết từng chạy. Về cơ bản, bạn đang nói rằng bạn muốn có <5% cơ hội từ chối bất kỳ giả thuyết khống nào, chưa từng có. Điều này thiết lập một ngưỡng nghiêm ngặt và suy luận nghiêm ngặt sẽ vô dụng nhưng có một vấn đề thậm chí còn cấp bách hơn: sự điều chỉnh toàn cầu của bạn có nghĩa là bạn đang kiểm tra các "giả thuyết ghép" hoàn toàn vô nghĩa như
H1:Drug XYZ changes T-cell count ∧Grapes grow better in some fields ∧…∧…∧…∧…∧Men and women eat different amounts of ice cream
Với các hiệu chỉnh sai của Discovery Discovery, vấn đề số không quá nghiêm trọng, nhưng nó vẫn là một mớ hỗn độn về mặt triết học. Thay vào đó, sẽ hợp lý khi xác định một "họ" các xét nghiệm liên quan, như danh sách các gen ứng cử viên trong nghiên cứu genom, hoặc một bộ các thùng tần số thời gian trong quá trình phân tích quang phổ. Điều chỉnh gia đình của bạn theo một câu hỏi cụ thể cho phép bạn thực sự diễn giải lỗi Loại I của mình bị ràng buộc theo cách trực tiếp. Ví dụ: bạn có thể xem tập hợp các giá trị p đã được hiệu chỉnh FWER từ dữ liệu gen của chính bạn và nói "Có <5% khả năng rằng bất kỳ gen nào trong số này là dương tính giả". Điều này tốt hơn rất nhiều so với một sự đảm bảo mơ hồ bao gồm các suy luận được thực hiện bởi những người bạn không quan tâm về các chủ đề bạn không quan tâm.
Mặt trái của vấn đề này là việc anh ấy lựa chọn "gia đình" thích hợp là điều gây tranh cãi và hơi chủ quan (Có phải tất cả các gen là một gia đình hay tôi chỉ có thể xem xét các kinase?) Nhưng vấn đề của bạn nên được thông báo và tôi không tin bất cứ ai đã nghiêm túc ủng hộ việc xác định các gia đình gần như rất rộng rãi.
Bayes thì sao?
Phân tích Bayes cung cấp giải pháp thay thế mạch lạc cho vấn đề này - nếu bạn sẵn sàng di chuyển một chút khỏi khung lỗi Loại I / Loại II thường xuyên. Chúng tôi bắt đầu với một số phi ủy quyền trước ... tốt ... tất cả mọi thứ. Mỗi khi chúng ta học được điều gì đó, thông tin đó được kết hợp với trước để tạo phân phối sau, lần lượt trở thành ưu tiên cho lần tiếp theo chúng ta học một thứ gì đó. Điều này cung cấp cho bạn một quy tắc cập nhật mạch lạc và bạn có thể so sánh các giả thuyết khác nhau về những điều cụ thể bằng cách tính yếu tố Bayes giữa hai giả thuyết. Có lẽ bạn có thể tạo ra các khối lớn của mô hình, điều này thậm chí sẽ không khiến điều này trở nên đặc biệt khó chịu.
Có một ... meme dai dẳng rằng các phương pháp Bayes không yêu cầu sửa chữa nhiều so sánh. Thật không may, tỷ lệ cược sau chỉ là một thống kê kiểm tra khác cho những người thường xuyên (ví dụ, những người quan tâm đến lỗi Loại I / II). Họ không có bất kỳ thuộc tính đặc biệt nào kiểm soát các loại lỗi này (Tại sao họ lại như vậy?) Vì vậy, bạn quay trở lại trong lãnh thổ khó hiểu, nhưng có lẽ trên mặt đất nguyên tắc hơn một chút.
Đối số phản đối Bayes là chúng ta nên tập trung vào những gì chúng ta có thể biết bây giờ và do đó những tỷ lệ lỗi này không quan trọng.
Về sinh sản
Bạn dường như đang đề xuất rằng nhiều so sánh không đúng - điều chỉnh là lý do đằng sau rất nhiều kết quả không chính xác / không thể đưa ra. Ý thức của tôi là các yếu tố khác có nhiều khả năng là một vấn đề. Một điều hiển nhiên là áp lực xuất bản khiến mọi người tránh các thí nghiệm thực sự nhấn mạnh giả thuyết của họ (tức là thiết kế thử nghiệm tồi).
p