Sidak hay Bonferroni?


12

Tôi đang sử dụng mô hình tuyến tính tổng quát trong SPSS để xem xét sự khác biệt về số lượng sâu bướm trung bình (không bình thường, sử dụng phân phối Tweedie) trên 16 loài thực vật khác nhau.

Tôi muốn chạy nhiều so sánh nhưng tôi không chắc mình nên sử dụng thử nghiệm hiệu chỉnh Sidak hay Bonferroni. Sự khác biệt giữa hai bài kiểm tra là gì? Cái này tốt hơn những cái khác phải không?


1
Tôi ghét thực tế là sự điều chỉnh như vậy thường là cần thiết với thử nghiệm giả thuyết thường xuyên tiêu chuẩn và tôi rất thích các kỹ thuật Bayes. Điều đó nói rằng, tôi ghét sự điều chỉnh Sidak ít hơn bởi vì nó có vẻ ít quảng cáo hơn (nếu bạn sẵn sàng chấp nhận giả định độc lập). Điều này chủ yếu chỉ là sở thích cá nhân mặc dù vậy tôi đã đưa ra nhận xét thay vì trả lời.
Michael McGowan

1
@MichaelMcGowan: Chỉ tò mò, nhưng, bạn nghĩ gì về " ad hoc " về một sự điều chỉnh Bonferroni?
Đức hồng y

@cardinal Xin lỗi, đó có lẽ không phải là lựa chọn tốt nhất cho các từ. Với chi phí cần các giả định mạnh mẽ hơn (tôi không muốn tầm thường hóa chi phí đó), việc hiệu chỉnh Sidak tạo ra một ràng buộc với ý nghĩa định tính hơn. Tôi thực sự không thể giải thích một cách định tính những gì ràng buộc thể hiện trong hiệu chỉnh Bonferroni ngoài một loại trường hợp xấu nhất bị ràng buộc theo bất bình đẳng của Boole.
Michael McGowan

@MichaelMcGowan: À, được rồi. Tôi hiểu rồi. Tôi cho rằng có một vài điều định tính mà người ta có thể nói về Bonferroni: (a) Nó cung cấp sự bảo vệ được bảo đảm chống lại tỷ lệ lỗi gia đình, bất kể sự phụ thuộc giữa các thống kê kiểm tra riêng lẻ theo null và (b) Đó là sự điều chỉnh chính xác để thực hiện khi các vùng loại bỏ của các thử nghiệm giả thuyết riêng lẻ tách rời nhau.
Đức hồng y

1
Hai thử nghiệm không độc lập nếu xác suất của lỗi loại I đối với một thử nghiệm tương quan với thử nghiệm đối với thử nghiệm kia. Ví dụ: giả sử bạn chạy thử nghiệm với một điều kiện điều khiển và hai điều kiện thử nghiệm. Hai thử nghiệm so sánh từng điều kiện thử nghiệm với điều kiện kiểm soát không độc lập. Bạn có thể thấy điều này bằng cách xem xét những gì xảy ra nếu bạn tình cờ nhận được một giá trị cực đoan cho điều kiện kiểm soát. Điều này sẽ làm cho cả hai thử nghiệm có nhiều khả năng có ý nghĩa thống kê.

Câu trả lời:


20

Nếu bạn chạy kiểm tra thống kê độc lập bằng cách sử dụng α làm mức ý nghĩa của mình và null có được trong mọi trường hợp, liệu bạn có tìm thấy 'mức độ quan trọng' hay không chỉ đơn giản là rút ra từ một biến ngẫu nhiên. Cụ thể, nó được lấy từ phân phối nhị thức với p = αn = k . Ví dụ: nếu bạn dự định chạy 3 thử nghiệm bằng cách sử dụng α = 0,05 và (không biết đến bạn) thực sự không có sự khác biệt trong mỗi trường hợp, thì có 5% cơ hội tìm thấy kết quả quan trọng trong mỗi thử nghiệm. Theo cách này, tỷ lệ lỗi loại I được giữ ở mức αkαp=αn=kα=.05αđối với các thử nghiệm riêng lẻ, nhưng trong toàn bộ 3 thử nghiệm, tỷ lệ lỗi loại I dài hạn sẽ cao hơn. Nếu bạn tin rằng nó có ý nghĩa để nhóm / nghĩ về những 3 kiểm tra lại với nhau, sau đó bạn có thể muốn giữ các loại tỷ lệ lỗi tôi tại cho các thiết lập như một toàn thể , chứ không phải chỉ riêng rẽ. Làm thế nào bạn nên đi về điều này? Có hai phương pháp tiếp cận trung tâm đó về chuyển từ bản gốc α (ví dụ, α o ) đến một giá trị mới (ví dụ, α n e wαααoαnew ):

Bonferroni: điều chỉnh giá trị được sử dụng để đánh giá 'tầm quan trọng' sao choα

αnew=αok

Dunn-Sidak: điều chỉnh bằng cách sử dụngα

αnew=1(1αo)1/k

(Lưu ý rằng Dunn-Sidak giả định tất cả các thử nghiệm trong tập hợp độc lập với nhau và có thể mang lại lạm phát lỗi loại I theo gia đình nếu giả định đó không được duy trì.)

Điều quan trọng cần lưu ý là khi tiến hành các xét nghiệm, có hai loại lỗi mà bạn muốn tránh, loại I (ví dụ, nói có một sự khác biệt khi không có một) và gõ II (tức là, nói có là không một sự khác biệt khi thực sự có). Thông thường, khi mọi người thảo luận về chủ đề này, họ chỉ thảo luận về giáo dục và dường như chỉ nhận thức được / quan tâm đến các lỗi loại I. Ngoài ra, mọi người thường bỏ qua đề cập rằng tỷ lệ lỗi được tính sẽ chỉ giữ nếu tất cả giá trị null là đúng. Rõ ràng là bạn không thể mắc lỗi loại I nếu giả thuyết null là sai, nhưng điều quan trọng là phải ghi nhớ thực tế đó một cách rõ ràng khi thảo luận về vấn đề này.

Tôi đưa ra điều này bởi vì có những hàm ý của những sự thật này dường như thường không được xem xét. Đầu tiên, nếu , cách tiếp cận Dunn-Sidak sẽ cung cấp sức mạnh cao hơn (mặc dù sự khác biệt có thể khá nhỏ với k nhỏ ) và vì vậy nên luôn luôn được ưu tiên (khi áp dụng). Thứ hai, nên sử dụng phương pháp 'bước xuống' . Đó là, kiểm tra hiệu quả lớn nhất trước tiên; nếu bạn tin rằng null không có được trong trường hợp đó, thì số lỗi loại I tối đa có thể là k - 1 , do đó, bài kiểm tra tiếp theo nên được điều chỉnh cho phù hợp, v.v. (Điều này thường làm cho mọi người khó chịu và trông giống như câu cá, nhưng nó không phảik>1kk1câu cá, vì các bài kiểm tra là độc lập và bạn dự định tiến hành chúng trước khi bạn nhìn thấy dữ liệu. Đây chỉ là một cách điều chỉnh tối ưu.) α

Ở trên giữ cho dù bạn đánh giá loại I liên quan đến lỗi loại II như thế nào. Tuy nhiên, a-prori không có lý do để tin rằng lỗi loại I tồi tệ hơn loại II (mặc dù thực tế là mọi người dường như đều cho là như vậy). Thay vào đó, đây là một quyết định phải được đưa ra bởi nhà nghiên cứu, và phải cụ thể cho tình huống đó. Cá nhân, nếu tôi đang chạy theo gợi ý về mặt lý thuyết, a-prori , tương phản trực giao, tôi thường không điều chỉnh .α

(Và để ghi này một lần nữa, bởi vì điều quan trọng là, tất cả những điều trên giả định rằng các cuộc thử nghiệm độc lập. Nếu sự tương phản không phải là độc lập, chẳng hạn như khi một số phương pháp điều trị được từng được so sánh với cùng kiểm soát, một cách tiếp cận khác so với điều chỉnh, chẳng hạn như thử nghiệm của Dunnett, nên được sử dụng.) α


+1. Là những gì bạn gọi là một cách tiếp cận "bước xuống" cho Bonferroni chính xác tương đương với phương pháp được gọi là phương pháp Holm-Bonferroni? Nếu có, thì logic tương tự được áp dụng cho Dunn-Sidak có tên không?
amip nói rằng Phục hồi Monica

1
@amoeba, vâng, đôi khi nó được gọi là "phương pháp của Holm", do đó Holm-Bonferroni hoặc Holm-Sidak.
gung - Phục hồi Monica

Cảm ơn. Một câu hỏi khác mà tôi có là về tuyên bố của bạn rằng nếu bạn đang chạy theo gợi ý về mặt lý thuyết, một sự tương phản trực giao, trực giao, bạn thường không điều chỉnh . Làm thế nào quan trọng là "trực giao" ở đây? Ví dụ: nếu bạn có 6 nhóm chủ đề và so sánh các nhóm 2, 3, 4, 5 và 6 với nhóm 1 (trong đó nhóm 1 có thể là nhóm kiểm soát), thì đây là những tương phản không trực giao. Bạn có cảm thấy khác về việc điều chỉnh α trong trường hợp này so với khi độ tương phản của bạn thực sự trực giao, như 1-2, 3-4, 5-6 không? Nếu vậy, tại sao? αα
amip nói rằng Tái lập Monica

@amoeba, chạy 3 a-prori, tương phản trực giao trong 1 nghiên cứu không khác gì so với chạy 1 tương phản a-prori trong mỗi 3 nghiên cứu khác nhau. Vì không ai tranh luận rằng bạn cần sửa lỗi gia đình cho cái sau, nên không có lý do nhất quán để yêu cầu chúng cho cái trước. Trong ví dụ khác của bạn, nếu nhóm kiểm soát nên bật thấp hơn một cách tình cờ, thì mỗi một trong số 5 tương phản của bạn sẽ có vẻ tốt; nhưng điều đó khó có thể xảy ra nếu bạn thực hiện 5 nghiên cứu độc lập. Bạn thực sự nên sử dụng một số hình thức điều chỉnh, hoặc bạn có thể sử dụng thử nghiệm của Dunnett .
gung - Phục hồi Monica

Tôi không nghĩ rằng tôi hoàn toàn hiểu. Tôi đã chạy một mô phỏng nhanh với các giá trị trong mỗi nhóm với n = 10α = 0,05 . Tôi nhận được 0,14 cơ hội có ít nhất một dương tính giả cho ba tương phản trực giao và 0,12 cơ hội cho ba tương phản không trực giao như trên. Điều đó rất gần. Sự khác biệt là lớn hơn nhiều đối với cơ hội nhận được cả ba dương tính giả: 0,0001 và 0,002. Vì vậy, tôi hiểu rằng nhận được một số kết quả quan trọng có nhiều khả năng với việc không chỉnh hình. tương phản, nhưng nếu một người quan tâm đến tỷ lệ lỗi gia đình, thì hai trường hợp dường như gần như giống hệt nhau. N(0,1)n=10α=0.05
amip nói phục hồi Monica

6

Biểu thị với các mức ý nghĩa sửa chữa, sau đó Bonferroni làm việc như thế này: Chia mức ý nghĩa α bằng của số n của các bài kiểm tra, tức là α * = α / n . Sidak làm việc như thế này (nếu thử nghiệm độc lập): α * = 1 - ( 1 - α ) 1 / n .ααnα=α/nα=1(1α)1/n

α/n<1(1α)1/n

Nếu bạn cần một thủ tục mạnh mẽ hơn nữa, bạn có thể muốn sử dụng thủ tục Bonferroni-Holm.


Tại sao Bonferroni đơn giản hơn để xử lý?
Emily

3
Tôi tìm chia α bởi n đại số đơn giản hơn so với tính toán 1-(1-α)1/n, nhưng tôi lười biếng. Ngoài ra Bonferroni không giả định sự thờ ơ do đó nó "đơn giản" hơn theo nghĩa giả định ít hơn. Nhưng bạn phải trả giá của nó là bảo thủ hơn.
Momo

@Momo Máy tính thực sự rất giỏi về số học, vì vậy tôi không thấy lập luận đơn giản rất hấp dẫn. Một trăm năm trước khi các tính toán được thực hiện bằng tay là một câu chuyện rất khác tất nhiên.
Michael McGowan

+1 so với câu trả lời của tôi, điều này đi đến điểm khá ngắn gọn ;-).
gung - Phục hồi Monica

Haha đó là những gì tôi nghĩ bạn có ý nghĩa! Cám ơn rất nhiều!
Emily

5

Hiệu chỉnh Sidak giả định các thử nghiệm riêng lẻ là độc lập thống kê. Sự điều chỉnh Bonferroni không giả định điều này.


Điều đó có nghĩa là Bonferroni chỉ đơn giản là một bài kiểm tra bảo thủ hơn?
Emily

1
Bonferroni bảo thủ hơn khi cả hai xét nghiệm đều phù hợp. Nhưng nếu các thử nghiệm của bạn không độc lập, bạn không nên sử dụng Sidak.
vào

2
+1 Việc hiệu chỉnh Bonferroni không yêu cầu các bài kiểm tra độc lập là một điểm tốt mà tôi không đề cập.
gung - Phục hồi Monica

@onestop: Điều đó có nghĩa là các xét nghiệm là độc lập? Có lẽ bạn có thể đưa ra một ví dụ?
Gunnhild

1
Việc hiệu chỉnh Sidak không đòi hỏi sự độc lập. Nó chỉ giả định các xét nghiệm không phụ thuộc tiêu cực. Sự phụ thuộc tích cực là tốt.
Bonferroni

4

Sidak và Bonferroni giống nhau đến mức bạn có thể sẽ nhận được kết quả tương tự bất kể bạn sử dụng quy trình nào. Bonferroni chỉ bảo thủ hơn Sidak một chút. Chẳng hạn, với 2 phép so sánh và alpha theo gia đình là 0,05, Sidak sẽ tiến hành mỗi thử nghiệm ở 0,253 và Bonferroni sẽ tiến hành mỗi thử nghiệm ở 0,0250.

Nhiều người bình luận trên trang này đã nói rằng Sidak chỉ có giá trị khi số liệu thống kê kiểm tra so sánh của bạn là độc lập. Đo không phải sự thật. Sidak cho phép lạm phát nhẹ tỷ lệ lỗi theo gia đình khi số liệu thống kê kiểm tra phụ thuộc NEGATIVELY, nhưng nếu bạn đang thực hiện kiểm tra hai mặt, sự phụ thuộc tiêu cực thường không phải là vấn đề đáng lo ngại. Trong sự phụ thuộc không âm, trên thực tế Sidak cung cấp giới hạn trên cho tỷ lệ lỗi theo gia đình. Điều đó nói rằng, có những thủ tục khác cung cấp một ràng buộc như vậy và có xu hướng giữ sức mạnh thống kê nhiều hơn Sidak. Vì vậy, Sidak có lẽ không phải là sự lựa chọn tốt nhất.

Một điều mà quy trình Bonferroni cung cấp (Sidak không) kiểm soát chặt chẽ số lỗi Loại I dự kiến ​​- cái gọi là "tỷ lệ lỗi theo gia đình", bảo thủ hơn so với tỷ lệ lỗi theo gia đình. Để biết thêm thông tin, hãy xem: Frane, AV (2015) "Tỷ lệ lỗi loại I của mỗi gia đình có liên quan đến khoa học xã hội và hành vi không?" Tạp chí Phương pháp thống kê ứng dụng hiện đại 14 (1), 12-23.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.