Nhầm lẫn với tỷ lệ phát hiện sai và thử nghiệm nhiều lần (trên Colquhoun 2014)


19

Tôi đã đọc bài báo tuyệt vời này của David Colquhoun: Một cuộc điều tra về tỷ lệ phát hiện sai và giải thích sai về giá trị p (2014). Về bản chất, ông giải thích tại sao tỷ lệ phát hiện sai (FDR) có thể lên tới mặc dù chúng tôi kiểm soát lỗi loại I với .α = 0,0530%α= =0,05

Tuy nhiên tôi vẫn bối rối không biết chuyện gì sẽ xảy ra nếu tôi áp dụng điều khiển FDR trong trường hợp thử nghiệm nhiều lần.

Giả sử, tôi đã thực hiện một thử nghiệm cho từng biến số và tính toán giá trị bằng cách sử dụng thủ tục Stewamini-Hochberg. Tôi có một biến có ý nghĩa với . Tôi đang hỏi FDR cho phát hiện này là gì?q = 0,049qq= =0,049

Tôi có thể giả định một cách an toàn rằng về lâu dài, nếu tôi thực hiện phân tích như vậy một cách thường xuyên, FDR không phải là , nhưng dưới , bởi vì tôi đã sử dụng Stewamini-Hochberg? Điều đó cảm thấy sai, tôi sẽ nói rằng giá trị tương ứng với giá trị trong bài báo của Colquhoun và lý luận của anh ta cũng áp dụng ở đây, do đó, bằng cách sử dụng ngưỡng tôi có nguy cơ "tự đánh lừa mình" (như Colquhoun đặt nó) trong các trường hợp. Tuy nhiên, tôi đã cố gắng giải thích nó chính thức hơn và tôi đã thất bại.5 % q p q 0,05 30 %30%5%qpq0,0530%


2
Này @Janemony, tôi tự hỏi tại sao bạn lại đưa ra một khoản tiền thưởng lớn như vậy (250) và sau đó không bao giờ quay lại để trao giải và / hoặc kiểm tra câu trả lời! Hi vọng cậu ổn.
amip nói phục hồi Monica

3
Hai bản thảo xuất hiện trên tôi như một tấn gạch và tôi hoàn toàn quên mất nó.
tháng 1,

Câu trả lời:


15

Điều đó xảy ra đến mức tình cờ tôi đọc được bài báo này chỉ một vài tuần trước đây. Colquhoun đề cập đến nhiều so sánh (bao gồm cả Stewamini-Hochberg) trong phần 4 khi đặt ra vấn đề, nhưng tôi thấy rằng anh ta không làm cho vấn đề đủ rõ ràng - vì vậy tôi không ngạc nhiên khi thấy sự nhầm lẫn của bạn.

Điểm quan trọng để nhận ra là Colquhoun đang nói về tình huống mà không có bất kỳ điều chỉnh so sánh nào. Người ta có thể hiểu bài báo của Colquhoun khi áp dụng quan điểm của người đọc: về cơ bản anh ta hỏi tỷ lệ phát hiện sai (FDR) mà anh ta có thể mong đợi khi đọc tài liệu khoa học và điều này có nghĩa là FDR dự kiến ​​khi không có nhiều điều chỉnh so sánh được thực hiện. Nhiều so sánh có thể được tính đến khi chạy nhiều bài kiểm tra thống kê trong một nghiên cứu, ví dụ như trong một bài báo. Nhưng không ai từng điều chỉnh cho nhiều so sánh trên các giấy tờ .

Nếu bạn thực sự kiểm soát FDR, ví dụ bằng cách làm theo quy trình của Stewamini-Hochberg (BH), thì nó sẽ được kiểm soát. Vấn đề là việc chạy thủ tục BH riêng trong mỗi nghiên cứu, không đảm bảo kiểm soát FDR tổng thể.

Tôi có thể giả định một cách an toàn rằng về lâu dài, nếu tôi thực hiện phân tích như vậy một cách thường xuyên, FDR không phải là , nhưng dưới , bởi vì tôi đã sử dụng Stewamini-Hochberg?5 %30%5%

Số Nếu bạn sử dụng thủ tục BH trong mọi giấy, nhưng độc lập trong mỗi giấy tờ của bạn, sau đó bạn về cơ bản có thể giải thích BH-điều chỉnh của bạn -values như bình thường -values, và những gì Colquhoun cho biết vẫn được áp dụng.ppp


Nhận xét chung

Câu trả lời cho câu hỏi của Colquhoun về FDR dự kiến ​​rất khó đưa ra vì nó phụ thuộc vào các giả định khác nhau. Nếu ví dụ: tất cả các giả thuyết null đều đúng, thì FDR sẽ là (tức là tất cả các phát hiện "có ý nghĩa" sẽ là sáo thống kê). Và nếu tất cả các giá trị null trong thực tế là sai, thì FDR sẽ bằng không. Vì vậy, FDR phụ thuộc vào tỷ lệ null thực sự, và đây là điều đã được ước tính hoặc đoán bên ngoài, để ước tính FDR. Colquhoun đưa ra một số đối số ủng hộ con số , nhưng ước tính này rất nhạy cảm với các giả định.30 %100%30%

Tôi nghĩ rằng bài báo chủ yếu là hợp lý, nhưng tôi không thích rằng nó làm cho một số tuyên bố nghe có vẻ quá táo bạo. Ví dụ: câu đầu tiên của bản tóm tắt là:

Nếu bạn sử dụng để gợi ý rằng bạn đã thực hiện một khám phá, bạn sẽ sai ít nhất thời gian.30 %p= =0,0530%

Điều này được xây dựng quá mạnh mẽ và thực sự có thể gây hiểu nhầm.


Được cho phép, tôi chỉ lướt qua tờ giấy khá nhanh, nhưng dường như anh ta chỉ đơn giản là nhắc lại quan niệm nổi tiếng rằng rất dễ tìm thấy hiệu ứng giả trong các cỡ mẫu lớn (ví dụ hình 1). Điều đó không có nghĩa là nó không có ý nghĩa, nhưng đúng hơn là tôi cảm thấy nó nên có một cách giải thích khác (và ít táo bạo hơn) so với tác giả cung cấp.
Ryan Simmons

1
Tôi không chắc tại sao @RyanSimmons nói rằng tôi "về cơ bản chỉ nhắc lại quan niệm nổi tiếng rằng rất dễ tìm thấy các hiệu ứng giả trong các cỡ mẫu lớn". Không có gì để làm với kích thước mẫu lớn! Tôi thực sự hoan nghênh một lời giải thích về lý do tại sao anh ấy nghĩ rằng bài báo nên có "một cách giải thích khác (và ít táo bạo hơn).
David Colquhoun

"Nhưng không ai từng điều chỉnh cho nhiều so sánh trên các bài báo. Nó cũng sẽ là không thể thực hiện được." Tôi nghĩ một trong những lợi thế của việc điều chỉnh tỷ lệ phát hiện sai so với điều chỉnh tỷ lệ lỗi trong gia đình là trong khi điều sau đòi hỏi phải có định nghĩa về gia đình , thì điều trước có thể mở rộng qua một số so sánh tùy ý?
Alexis

pαp

Vâng, những gì bạn mô tả chắc chắn không phải là một thủ tục so sánh nhiều. Tuy nhiên, thực hiện các phương pháp điều chỉnh dựa trên FDR trên, giả sử 5 thử nghiệm, sau đó thêm 20 thử nghiệm nữa vào bộ 10 và thực hiện lại cùng một phương pháp để duy trì xác suất loại bỏ trong FDR, nhưng các xác suất loại bỏ này thay đổi theo FWER. Điều chỉnh Bonferroni của Dunn cung cấp một ví dụ khá ấn tượng.
Alexis

12

Stewamini & Hochberg định nghĩa tỷ lệ phát hiện sai theo cách tương tự như tôi làm, là một phần của các xét nghiệm dương tính là dương tính giả. Vì vậy, nếu bạn sử dụng quy trình của họ để so sánh nhiều lần, bạn sẽ kiểm soát FDR đúng cách. Tuy nhiên, điều đáng chú ý là có khá nhiều biến thể của phương thức BH. Các hội thảo của Carloamini tại Berkeley đều có trên Youtube và rất đáng xem:

Tôi không chắc tại sao @amoeba nói "Điều này được xây dựng quá mạnh mẽ và thực sự có thể gây hiểu lầm". Tôi muốn biết lý do tại sao anh ấy / cô ấy nghĩ vậy. Đối số thuyết phục nhất đến từ các thử nghiệm t mô phỏng (phần 6). Điều đó bắt chước những gì hầu hết mọi người làm trong thực tế và nó cho thấy rằng nếu bạn quan sát P gần 0,047 và tuyên bố đã thực hiện một khám phá, bạn sẽ sai ít nhất 26% thời gian. Cái mà có thể sai lầm?

Tất nhiên, tôi không nên mô tả điều này là tối thiểu. Đó là những gì bạn nhận được nếu bạn cho rằng có 50% cơ hội có hiệu lực thực sự. Tất nhiên, nếu bạn cho rằng hầu hết các giả thuyết của bạn đều đúng trước, thì bạn có thể nhận được FDR thấp hơn 26%, nhưng bạn có thể tưởng tượng sự vui nhộn sẽ chào đón một tuyên bố rằng bạn đã khám phá trên cơ sở giả định không rằng bạn đã chắc chắn 90% trước rằng kết luận của bạn sẽ đúng. 26% là FDR tối thiểu cho rằng đó không phải là cơ sở hợp lý để suy luận về bất kỳ xác suất trước nào lớn hơn 0,5.

Cho rằng linh cảm thường không đứng lên khi được kiểm tra, có thể chỉ có 10% khả năng bất kỳ giả thuyết cụ thể nào là đúng, và trong trường hợp đó, FDR sẽ là thảm họa 76%.

Đúng là tất cả những điều này phụ thuộc vào giả thuyết null là không có sự khác biệt nào (cái gọi là điểm null). Các lựa chọn khác có thể cho kết quả khác nhau. Nhưng điểm null là thứ mà hầu hết mọi người sử dụng trong cuộc sống thực (mặc dù có thể không nhận thức được điều đó). Hơn nữa, điểm null dường như là thứ hoàn toàn thích hợp để sử dụng. Đôi khi nó phản đối rằng sự khác biệt thực sự không bao giờ chính xác bằng không. Tôi không đồng ý. Chúng tôi muốn biết liệu kết quả của chúng tôi có thể phân biệt được với trường hợp cả hai nhóm được điều trị giống hệt nhau hay không, vì vậy sự khác biệt thực sự là chính xác. Nếu chúng tôi quyết định rằng dữ liệu ngoài không tương thích với chế độ xem đó, chúng tôi sẽ tiếp tục ước tính kích thước hiệu ứng. và tại thời điểm đó, chúng tôi đưa ra đánh giá riêng biệt về việc liệu hiệu ứng, mặc dù thực tế, có đủ lớn để trở nên quan trọng trong thực tế hay không.Blog của Deborah Mayo .


@amoeba Cảm ơn bạn đã phản hồi.

Những gì cuộc thảo luận trên blog của Mayo cho thấy chủ yếu là Mayo không đồng ý với tôi, mặc dù cô ấy không nói rõ tại sao, với tôi ít nhất). Stephen Senn chỉ ra một cách chính xác rằng bạn có thể nhận được một câu trả lời khác nếu bạn đưa ra một phân phối trước khác. Điều đó đối với tôi chỉ thú vị đối với người Bayes chủ quan.

Nó chắc chắn không liên quan đến thực tiễn hàng ngày luôn luôn giả định một điểm không. Và như tôi đã giải thích, đó dường như là một điều hoàn toàn hợp lý để làm.

Nhiều nhà thống kê chuyên nghiệp đã đưa ra kết luận giống như của tôi. Hãy thử Sellke & Berger và Valen Johnson (tài liệu tham khảo trong bài viết của tôi). Không có gì gây tranh cãi (hoặc rất nguyên bản) về tuyên bố của tôi.

Điểm khác của bạn, về việc giả sử 0,5 trước, đối với tôi dường như không phải là một giả định. Như tôi đã giải thích ở trên, bất cứ điều gì trên 0,5 woold đều không được chấp nhận trong thực tế. Và bất cứ điều gì dưới 0,5 làm cho tỷ lệ phát hiện sai thậm chí cao hơn (ví dụ 76% nếu trước đó là 0,1). Do đó, hoàn toàn hợp lý khi nói rằng 26% là tỷ lệ phát hiện sai tối thiểu mà bạn có thể mong đợi nếu bạn quan sát P = 0,047 trong một thử nghiệm.


Tôi đã suy nghĩ nhiều hơn về câu hỏi này. Định nghĩa về FDR của tôi cũng giống như của Stewamini - phần thử nghiệm dương tính là sai. Nhưng nó được áp dụng cho một vấn đề khá khác biệt, đó là việc giải thích một bài kiểm tra. Với nhận thức muộn có lẽ sẽ tốt hơn nếu tôi chọn một thuật ngữ khác.

Trong trường hợp thử nghiệm đơn lẻ, B & H giữ nguyên giá trị P, do đó, nó không nói gì về tỷ lệ phát hiện sai theo nghĩa mà tôi sử dụng thuật ngữ này.


es tất nhiên bạn đúng. Stewamini & Hochberg, và những người khác làm việc trên nhiều so sánh, chỉ nhằm mục đích sửa tỷ lệ lỗi loại 1. Vì vậy, họ kết thúc với một giá trị P "chính xác". Nó có cùng các vấn đề như bất kỳ giá trị P nào khác. Trong bài viết mới nhất của mình, tôi đã thay đổi tên từ FDR thành Rủi ro Tích cực Sai (FPR) nhằm tránh sự hiểu lầm này.

Chúng tôi cũng đã viết một ứng dụng web để thực hiện một số tính toán (sau khi nhận thấy rằng có rất ít người tải xuống các tập lệnh R mà chúng tôi cung cấp). Đó là tại https://davidcolquhoun.shinyapps.io/3-calcs-final/ Tất cả các ý kiến ​​về itare hoan nghênh (vui lòng đọc tab Ghi chú trước).

PS Máy tính web hiện có một ứng dụng mới (vĩnh viễn, tôi hy vọng) tại http://fpr-calc.ucl.ac.uk/ Shiny.io rất dễ sử dụng, nhưng rất tốn kém nếu có ai thực sự sử dụng ứng dụng :-(


Tôi đã trở lại cuộc thảo luận này, bây giờ bài báo thứ hai của tôi về chủ đề này sắp xuất hiện trong Khoa học mở của Hiệp hội Hoàng gia. Đó là tại https://www.biorxiv.org/content/early/2017/08/07/144337

Tôi nhận ra rằng sai lầm lớn nhất mà tôi mắc phải trong bài báo đầu tiên là sử dụng thuật ngữ "tỷ lệ phát hiện sai (FDR)". Trong bài báo mới tôi nói rõ hơn rằng tôi không nói gì về vấn đề so sánh nhiều. Tôi chỉ giải quyết câu hỏi về cách diễn giải giá trị P được quan sát trong một thử nghiệm không thiên vị.

Trong phiên bản mới nhất, tôi đề cập đến xác suất rằng kết quả là rủi ro dương tính giả (FPR) chứ không phải FDR, với hy vọng giảm nhầm lẫn. Tôi cũng ủng hộ cách tiếp cận Bayes ngược - xác định xác suất trước đó sẽ cần để đảm bảo FPR, giả sử, 5%. Nếu bạn quan sát P = 0,05, tức là 0,87. Nói cách khác, bạn phải gần như (87%) chắc chắn rằng đã có hiệu quả thực sự trước khi thực hiện thử nghiệm để đạt được FPR là 5% (đó là điều mà hầu hết mọi người vẫn tin, nhầm, p = 0,05 có nghĩa).


David thân mến, chào mừng bạn đến với CrossValidated và cảm ơn vì đã tham gia! Có vẻ như chúng tôi đồng ý về câu hỏi ban đầu của @ tháng 1: FDR chỉ có thể được kiểm soát bởi một thủ tục BH tổng thể; nếu BH được áp dụng riêng cho từng bài, thì đối số của bạn vẫn được áp dụng. Nếu vậy, điều này giải quyết câu hỏi ban đầu. Về nhận xét của tôi về công thức "quá mạnh" của bạn: sau khi đọc 147 bình luận trên blog của Mayo, tôi ngần ngại bắt đầu một cuộc thảo luận khác. Như tôi đã viết, tôi hầu như đồng ý với bài viết của bạn, và sự phản đối của tôi chỉ là về một số công thức. [tiếp theo]
amip nói rằng Phục hồi lại

1
[...] Câu đầu tiên trong bản tóm tắt là "quá mạnh" chính xác vì những lý do bạn liệt kê ở đây: ví dụ: nó giả sử điểm null và nó giả sử 0,5 trước, nhưng âm thanh như thể nó không thừa nhận bất cứ điều gì (nhưng tôi hiểu rằng bạn cố tỏ ra khiêu khích). Cuộc thảo luận lớn trên blog của Mayo cho thấy nhiều người không đồng ý rằng những giả định này là hợp lý cho thực tiễn khoa học thực tế. Tôi cũng có phản đối của riêng mình, nhưng tôi đồng ý với bạn rằng những giả định này có thể mô tả chính xác một số lĩnh vực khoa học. Và nếu vậy, những lĩnh vực này có một vấn đề lớn, vâng.
amip nói rằng Phục hồi lại

2

Một phần lớn của sự nhầm lẫn là, mặc dù nhận xét của anh ấy ở đây ngược lại, Colquhoun KHÔNG định nghĩa FDR giống như cách mà Stewamini-Hochberg làm. Thật không may là Colquhoun đã cố gắng kiếm một thuật ngữ mà không kiểm tra trước để đảm bảo rằng thuật ngữ này chưa có định nghĩa khác, được thiết lập tốt. Để làm cho vấn đề tồi tệ hơn, Colquhoun đã định nghĩa FDR theo cách chính xác mà FDR thông thường thường bị hiểu sai.

Trong câu trả lời của mình ở đây, Colquhoun định nghĩa FDR là "phần nhỏ của các xét nghiệm dương tính là sai." Điều đó tương tự với những gì Stewamini-Hochberg định nghĩa là FDP (tỷ lệ phát hiện sai, không bị nhầm lẫn với tỷ lệ phát hiện sai). Stewamini-Hochberg định nghĩa FDR là GIÁ TRỊ MỞ RỘNG của FDP, với một quy định đặc biệt rằng FDP được coi là 0 khi không có xét nghiệm dương tính (một quy định xảy ra để làm cho FDR bằng FWER khi tất cả null đều đúng và tránh các giá trị không thể xác định do chia cho 0).

Để tránh nhầm lẫn, tôi khuyên bạn không nên lo lắng về các chi tiết trong bài báo Colquhoun, và thay vào đó chỉ cần quan tâm đến điểm ảnh lớn (mà vô số người khác cũng đã thực hiện) rằng mức độ alpha không tương ứng trực tiếp với tỷ lệ của các bài kiểm tra quan trọng mà là lỗi Loại I (cho dù chúng ta đang nói về các thử nghiệm quan trọng trong một nghiên cứu duy nhất hoặc trong một số nghiên cứu kết hợp). Tỷ lệ đó không chỉ phụ thuộc vào alpha, mà còn phụ thuộc vào sức mạnh và tỷ lệ của các giả thuyết null được kiểm tra là đúng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.