Tại sao nhiều so sánh là một vấn đề?


44

Tôi thấy khó hiểu vấn đề thực sự là gì với nhiều so sánh . Với một sự tương tự đơn giản, người ta nói rằng một người sẽ đưa ra nhiều quyết định sẽ phạm nhiều sai lầm. Vì vậy, biện pháp phòng ngừa rất bảo thủ được áp dụng, như hiệu chỉnh Bonferroni, để xác định rằng, người này sẽ có bất kỳ sai lầm nào, càng thấp càng tốt.

Nhưng tại sao chúng ta quan tâm đến việc liệu người đó có mắc phải bất kỳ sai lầm nào trong số tất cả các quyết định mà anh ấy / cô ấy đã đưa ra, thay vì tỷ lệ phần trăm của các quyết định sai?

Hãy để tôi cố gắng giải thích những gì làm tôi bối rối với một sự tương tự khác. Giả sử có hai thẩm phán, một người 60 tuổi và người kia 20 tuổi. Sau đó, Bonferroni điều chỉnh nói với người 20 tuổi phải thận trọng nhất có thể, khi quyết định xử tử, vì anh ta sẽ làm việc trong nhiều năm nữa với tư cách là thẩm phán, sẽ đưa ra nhiều quyết định hơn, vì vậy anh ta phải cẩn thận. Nhưng một người ở tuổi 60 sẽ có thể nghỉ hưu sớm, sẽ đưa ra ít quyết định hơn, vì vậy anh ta có thể bất cẩn hơn so với người khác. Nhưng thực ra, cả hai thẩm phán nên cẩn thận hoặc bảo thủ như nhau, bất kể tổng số quyết định mà họ sẽ đưa ra. Tôi nghĩ rằng sự tương tự này ít nhiều chuyển thành các vấn đề thực sự trong đó áp dụng hiệu chỉnh Bonferroni, mà tôi thấy phản trực giác.


8
không thực sự là một câu trả lời cho câu hỏi của bạn, nhưng bạn đã gặp phải Tỷ lệ khám phá sai (FDR) chưa? "Beyond Bonferroni" của Narum: springerlink.com/content/c5047h0084528056
apeescape

Câu trả lời:


40

Bạn đã nói điều gì đó là một đối số cổ điển đối với các chỉnh sửa Bonferroni. Tôi không nên điều chỉnh tiêu chí alpha của mình dựa trên mọi bài kiểm tra tôi sẽ thực hiện? Loại ngụ ý quảng cáo vô lý này là lý do tại sao một số người không tin vào chỉnh sửa kiểu Bonferroni. Đôi khi loại dữ liệu mà một người liên quan đến trong sự nghiệp của họ là như vậy đây không phải là một vấn đề. Đối với các thẩm phán đưa ra một, hoặc rất ít quyết định cho mỗi bằng chứng mới, đây là một lập luận rất hợp lệ. Nhưng còn thẩm phán với 20 bị cáo và ai là người dựa trên phán quyết của họ về một tập hợp dữ liệu lớn (ví dụ như các tòa án chiến tranh) thì sao?

Bạn đang bỏ qua những cú đá ở phần có thể của cuộc tranh luận. Thông thường các nhà khoa học đang tìm kiếm thứ gì đó - giá trị p nhỏ hơn alpha. Mỗi nỗ lực để tìm một là một cú đá khác vào can. Cuối cùng người ta sẽ tìm thấy một người nếu chụp đủ số lượng vào nó. Do đó, họ nên bị phạt vì làm điều đó.

Cách bạn hòa hợp hai đối số này là nhận ra cả hai đều đúng. Giải pháp đơn giản nhất là xem xét việc kiểm tra sự khác biệt trong một tập dữ liệu duy nhất như là một vấn đề có thể xảy ra nhưng việc mở rộng phạm vi điều chỉnh bên ngoài sẽ là một độ dốc trơn trượt.

Đây thực sự là một vấn đề khó khăn trong một số lĩnh vực, đặc biệt là FMRI nơi có hàng ngàn điểm dữ liệu được so sánh và chắc chắn sẽ có một số điểm đáng chú ý. Cho rằng lĩnh vực này trong lịch sử rất thăm dò người ta phải làm một cái gì đó để sửa chữa cho thực tế rằng hàng trăm khu vực của bộ não sẽ trông hoàn toàn có ý nghĩa hoàn toàn tình cờ. Do đó, nhiều phương pháp điều chỉnh tiêu chí đã được phát triển trong lĩnh vực đó.

Mặt khác, trong một số lĩnh vực, nhiều nhất người ta có thể nhìn vào 3 đến 5 cấp độ của một biến và luôn chỉ kiểm tra mọi kết hợp nếu xảy ra ANOVA đáng kể. Điều này được biết là có một số vấn đề (lỗi loại 1) nhưng nó không đặc biệt khủng khiếp.

Nó phụ thuộc vào quan điểm của bạn. Nhà nghiên cứu FMRI nhận ra nhu cầu thực sự về sự thay đổi tiêu chí. Người nhìn vào một ANOVA nhỏ có thể cảm thấy rằng rõ ràng có gì đó từ bài kiểm tra. Quan điểm bảo thủ đúng đắn về nhiều so sánh là luôn luôn làm một cái gì đó về chúng nhưng chỉ dựa trên một tập dữ liệu duy nhất. Bất kỳ dữ liệu mới nào cũng đặt lại tiêu chí ... trừ khi bạn là người Bayes ...


Cảm ơn, nó rất hữu ích. Tôi sẽ bình chọn khi tôi có đủ đại diện.
AgCl

Nhà nghiên cứu FMRI có thể cũng sẽ sử dụng tiêu chí Tỷ lệ khám phá sai (FDR), vì nó đảm bảo dương tính giả * 100% trong một thời gian dài thử nghiệm.
Brandon Sherman

@ John, Bạn có thể vui lòng trả lời câu hỏi này không.stackexchange.com/questions/431011/iêu Tôi sẽ rất vui, nếu bạn vui lòng giúp tôi.
Sabbir Ahmed

26

Các nhà thống kê được kính trọng đã đảm nhận nhiều vị trí khác nhau trên nhiều so sánh. Đó là một chủ đề tinh tế. Nếu ai đó nghĩ nó đơn giản, tôi sẽ tự hỏi họ đã nghĩ về nó nhiều như thế nào.

Đây là một viễn cảnh thú vị của Bayes về nhiều thử nghiệm từ Andrew Gelman: Tại sao chúng ta không (thường) lo lắng về nhiều so sánh .


2
Điều tôi cảm thấy thú vị về bài viết này là phối cảnh là Bayes, nhưng phương pháp mô hình hóa phân cấp được đưa ra để thay thế các chỉnh sửa cho nhiều so sánh không yêu cầu bạn phải là Bayes.
liên hợp chiến binh

1
Tôi chỉ nhìn vào bài báo đó; Tôi nghĩ có lẽ nó cần được trích dẫn nhiều hơn. Tôi ghét các hiệu ứng xả xuống cống vì nhiều kỹ thuật so sánh tiên tiến không được biết đến hoặc dễ thực hiện. Ngược lại, một cách tiếp cận nhẹ hơn là thả chết đơn giản. Tôi tự hỏi liệu có vấn đề nghiêm trọng với nó cần phải được xem xét.
russellpierce


13

Liên quan đến nhận xét trước đó, điều mà nhà nghiên cứu fMRI nên nhớ là kết quả quan trọng về mặt lâm sàng mới là vấn đề, không phải là sự thay đổi mật độ của một pixel trên một fMRI của não. Nếu nó không dẫn đến cải thiện / bất lợi lâm sàng, nó không thành vấn đề. Đó là một cách để giảm mối quan tâm về nhiều so sánh.

Xem thêm:

  1. Bauer, P. (1991). Nhiều thử nghiệm trong các thử nghiệm lâm sàng. Stat Med, 10 (6), 871-89; thảo luận 889-90.
  2. Proschan, MA & Waclawiw, MA (2000). Hướng dẫn thực hành để điều chỉnh đa bội trong các thử nghiệm lâm sàng. Kiểm soát lâm sàng thử nghiệm, 21 (6), 527-39.
  3. Rothman, KJ (1990). Không cần điều chỉnh là cần thiết để so sánh nhiều. Dịch tễ học (Cambridge, Mass.), 1 (1), 43-6.
  4. Perneger, TV (1998). Có gì sai với điều chỉnh bonferroni. BMJ (Nghiên cứu lâm sàng Ed.), 316 (7139), 1236-8.

Điều này cũng chắc chắn đáng được trích dẫn: prefrontal.org/files/posters/Bennett-Salmon-2009.jpg
nico

Tôi chắc rằng họ đã rất vui khi hỏi một con cá hồi đã chết về cảm xúc của nó !!!
nico

Bài đăng này cũng có các tài liệu tham khảo hữu ích liên quan đến RCT: j.mp/bAgr1B .
chl

10

n(Xi)i=1,,ni=1,,n XiN(θi,1)

H0i:θi=0H1i:θi0

niτiH0i|Xi|>τi

τi

  1. chọn cùng một ngưỡng cho tất cả mọi người

  2. để chọn một ngưỡng khác nhau cho mọi người (thường là ngưỡng dữ liệu, xem bên dưới).

Mục đích khác nhau: Các tùy chọn này có thể được điều khiển cho các mục tiêu khác nhau như

  • H0ii
  • Kiểm soát kỳ vọng của tỷ lệ báo động sai (hoặc Tỷ lệ phát hiện sai)

    Mục tiêu của bạn là gì khi kết thúc, đó là một ý tưởng tốt để sử dụng ngưỡng datawise.

Câu trả lời của tôi cho câu hỏi của bạn: trực giác của bạn có liên quan đến heuristic chính để chọn ngưỡng dữ liệu. Đó là những điều sau đây (tại nguồn gốc của thủ tục Holm mạnh mẽ hơn Bonferoni):

p|Xi|H0inpH0i

Trong trường hợp các thẩm phán của bạn: Tôi cho rằng (và tôi đoán bạn nên làm như vậy) rằng cả hai thẩm phán đều có cùng một ngân sách buộc tội sai cho cuộc sống của họ. Thẩm phán 60 tuổi có thể ít bảo thủ hơn, nếu trong quá khứ, ông không buộc tội bất cứ ai! Nhưng nếu anh ta đã đưa ra nhiều lời buộc tội, anh ta sẽ bảo thủ hơn và thậm chí có thể còn hơn cả thẩm phán youndest.


Tôi nghĩ rằng bạn có một lỗi đánh máy trong các giả thuyết của bạn - cả hai dường như giống nhau ...
walkytalky

2

Một bài viết minh họa (và hài hước); http://www.jsur.org/ar/jsur_ben102010.pdf ) về sự cần thiết của nhiều hiệu chỉnh thử nghiệm trong một số nghiên cứu thực tế phát triển nhiều biến, ví dụ fmri. Trích dẫn ngắn này cho biết hầu hết các tin nhắn:

"[...] chúng tôi đã hoàn thành phiên quét fMRI với chủ đề Cá hồi Đại Tây Dương sau khi chết. Cá hồi được thể hiện cùng một nhiệm vụ quan điểm xã hội mà sau đó được quản lý cho một nhóm đối tượng người."

đó là, theo kinh nghiệm của tôi, một lập luận tuyệt vời để khuyến khích người dùng sử dụng nhiều hiệu chỉnh thử nghiệm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.