Nếu bạn chạy kiểm tra thống kê độc lập bằng cách sử dụng α làm mức ý nghĩa của mình và null có được trong mọi trường hợp, liệu bạn có tìm thấy 'mức độ quan trọng' hay không chỉ đơn giản là rút ra từ một biến ngẫu nhiên. Cụ thể, nó được lấy từ phân phối nhị thức với p = α và n = k . Ví dụ: nếu bạn dự định chạy 3 thử nghiệm bằng cách sử dụng α = 0,05 và (không biết đến bạn) thực sự không có sự khác biệt trong mỗi trường hợp, thì có 5% cơ hội tìm thấy kết quả quan trọng trong mỗi thử nghiệm. Theo cách này, tỷ lệ lỗi loại I được giữ ở mức αkαp=αn=kα=.05αđối với các thử nghiệm riêng lẻ, nhưng trong toàn bộ 3 thử nghiệm, tỷ lệ lỗi loại I dài hạn sẽ cao hơn. Nếu bạn tin rằng nó có ý nghĩa để nhóm / nghĩ về những 3 kiểm tra lại với nhau, sau đó bạn có thể muốn giữ các loại tỷ lệ lỗi tôi tại cho các thiết lập như một toàn thể , chứ không phải chỉ riêng rẽ. Làm thế nào bạn nên đi về điều này? Có hai phương pháp tiếp cận trung tâm đó về chuyển từ bản gốc α (ví dụ, α o ) đến một giá trị mới (ví dụ, α n e wαααoαnew ):
Bonferroni: điều chỉnh giá trị được sử dụng để đánh giá 'tầm quan trọng' sao choα
αnew=αok
Dunn-Sidak: điều chỉnh bằng cách sử dụngα
αnew=1−(1−αo)1/k
(Lưu ý rằng Dunn-Sidak giả định tất cả các thử nghiệm trong tập hợp độc lập với nhau và có thể mang lại lạm phát lỗi loại I theo gia đình nếu giả định đó không được duy trì.)
Điều quan trọng cần lưu ý là khi tiến hành các xét nghiệm, có hai loại lỗi mà bạn muốn tránh, loại I (ví dụ, nói có là một sự khác biệt khi không có một) và gõ II (tức là, nói có là không một sự khác biệt khi thực sự có). Thông thường, khi mọi người thảo luận về chủ đề này, họ chỉ thảo luận về giáo dục và dường như chỉ nhận thức được / quan tâm đến các lỗi loại I. Ngoài ra, mọi người thường bỏ qua đề cập rằng tỷ lệ lỗi được tính sẽ chỉ giữ nếu tất cả giá trị null là đúng. Rõ ràng là bạn không thể mắc lỗi loại I nếu giả thuyết null là sai, nhưng điều quan trọng là phải ghi nhớ thực tế đó một cách rõ ràng khi thảo luận về vấn đề này.
Tôi đưa ra điều này bởi vì có những hàm ý của những sự thật này dường như thường không được xem xét. Đầu tiên, nếu , cách tiếp cận Dunn-Sidak sẽ cung cấp sức mạnh cao hơn (mặc dù sự khác biệt có thể khá nhỏ với k nhỏ ) và vì vậy nên luôn luôn được ưu tiên (khi áp dụng). Thứ hai, nên sử dụng phương pháp 'bước xuống' . Đó là, kiểm tra hiệu quả lớn nhất trước tiên; nếu bạn tin rằng null không có được trong trường hợp đó, thì số lỗi loại I tối đa có thể là k - 1 , do đó, bài kiểm tra tiếp theo nên được điều chỉnh cho phù hợp, v.v. (Điều này thường làm cho mọi người khó chịu và trông giống như câu cá, nhưng nó không phải làk>1kk−1câu cá, vì các bài kiểm tra là độc lập và bạn dự định tiến hành chúng trước khi bạn nhìn thấy dữ liệu. Đây chỉ là một cách điều chỉnh tối ưu.) α
Ở trên giữ cho dù bạn đánh giá loại I liên quan đến lỗi loại II như thế nào. Tuy nhiên, a-prori không có lý do để tin rằng lỗi loại I tồi tệ hơn loại II (mặc dù thực tế là mọi người dường như đều cho là như vậy). Thay vào đó, đây là một quyết định phải được đưa ra bởi nhà nghiên cứu, và phải cụ thể cho tình huống đó. Cá nhân, nếu tôi đang chạy theo gợi ý về mặt lý thuyết, a-prori , tương phản trực giao, tôi thường không điều chỉnh .α
(Và để ghi này một lần nữa, bởi vì điều quan trọng là, tất cả những điều trên giả định rằng các cuộc thử nghiệm độc lập. Nếu sự tương phản không phải là độc lập, chẳng hạn như khi một số phương pháp điều trị được từng được so sánh với cùng kiểm soát, một cách tiếp cận khác so với điều chỉnh, chẳng hạn như thử nghiệm của Dunnett, nên được sử dụng.) α