Làm thế nào một nhà nghiên cứu cá nhân nên nghĩ về tỷ lệ phát hiện sai?


30

Tôi đã cố gắng xoay quanh việc Tỷ lệ khám phá sai (FDR) sẽ thông báo kết luận của từng nhà nghiên cứu như thế nào. Ví dụ: nếu nghiên cứu của bạn không đủ mạnh, bạn có nên giảm giá kết quả của mình ngay cả khi chúng có ý nghĩa ở không? Lưu ý: Tôi đang nói về FDR trong bối cảnh kiểm tra kết quả của nhiều nghiên cứu tổng hợp, không phải là một phương pháp để sửa chữa nhiều thử nghiệm.α=.05

Giả định (có thể hào phóng) rằng của các giả thuyết được kiểm tra là thực sự đúng, FDR là một hàm của cả tỷ lệ lỗi loại I và loại II như sau:.5

FDR=αα+1β.

Lý do là nếu một nghiên cứu đủ sức mạnh , chúng ta không nên tin tưởng vào kết quả, ngay cả khi chúng có ý nghĩa, nhiều như những nghiên cứu được cung cấp đầy đủ. Vì vậy, như một số nhà thống kê sẽ nói , có những trường hợp, "về lâu dài", chúng tôi có thể công bố nhiều kết quả quan trọng là sai nếu chúng tôi tuân theo các hướng dẫn truyền thống. Nếu một cơ quan nghiên cứu được đặc trưng bởi các nghiên cứu liên tục đủ mạnh (ví dụ, các gen ứng cử viên môi trường tương tác văn học của thập kỷ trước ), những phát hiện đáng kể thậm chí lặp lại có thể nghi ngờ.×

Áp dụng các gói R extrafont, ggplot2xkcd, tôi nghĩ rằng điều này có thể hữu ích khái niệm hóa như một vấn đề quan điểm: Một kết quả quan trọng ...

Không chắc lắm...

Đưa ra thông tin này, một nhà nghiên cứu cá nhân nên làm gì tiếp theo ? Nếu tôi đoán được kích thước của hiệu ứng mà tôi đang nghiên cứu là gì (và do đó, ước tính là , với kích thước mẫu của tôi), tôi có nên điều chỉnh mức của mình cho đến khi FDR = 0,05 không? Tôi có nên công bố kết quả ở cấp ngay cả khi các nghiên cứu của tôi không đủ sức mạnh và để lại sự xem xét của FDR cho người tiêu dùng của tài liệu không?1βαα=.05

Tôi biết đây là một chủ đề đã được thảo luận thường xuyên, cả trên trang web này và trong các tài liệu thống kê, nhưng dường như tôi không thể tìm thấy sự đồng thuận về ý kiến ​​về vấn đề này.


EDIT: Đáp lại nhận xét của @ amoeba, FDR có thể được lấy từ bảng dự phòng tỷ lệ lỗi loại I / loại II tiêu chuẩn (bỏ qua sự xấu xí của nó):

|                            |Finding is significant |Finding is insignificant |
|:---------------------------|:----------------------|:------------------------|
|Finding is false in reality |alpha                  |1 - alpha                |
|Finding is true in reality  |1 - beta               |beta                     |

Vì vậy, nếu chúng ta được trình bày với một phát hiện quan trọng (cột 1), khả năng nó là sai trong thực tế là alpha trên tổng của cột.

Nhưng vâng, chúng ta có thể sửa đổi định nghĩa về FDR để phản ánh xác suất (trước) rằng một giả thuyết đã cho là đúng, mặc dù năng lực nghiên cứu vẫn đóng vai trò:(1β)

FDR=α(1prior)α(1prior)+(1β)prior

Nó có thể không cung cấp cho bạn một câu trả lời chắc chắn cho câu hỏi của bạn, nhưng bạn có thể tìm thấy cảm hứng trong văn bản này .
JohnRos

1
Bài viết của David Colquhoun mà bạn liên kết đến, gần đây đã được thảo luận ở đây (với @DavidColquhoun tham gia cuộc thảo luận), bạn có thể quan tâm để xem.
amip nói rằng Phục hồi lại

2
Công thức cho FDR về và đến từ đâu? Có lẽ tôi đang ngu ngốc, nhưng tôi không thể hiểu tại sao nó phải là sự thật. Tôi hy vọng FDR sẽ phụ thuộc vào mức độ phổ biến của null trong dân số nghiên cứu, dường như không đi vào công thức của bạn. Tôi bị bối rối. αβ
amip nói rằng Phục hồi lại

2
Chà, được thôi, tôi nên lấy lại: công thức ban đầu của bạn là chính xác trong trường hợp đặc biệt khi xác suất trước . Bạn thực sự đã viết nó cùng, nhưng tôi đã không nhận thấy; lấy làm tiếc. Ngoài ra, bạn có quyền rằng với bất kỳ cho nào (ngoài hoặc ), FDR sẽ phát triển với công suất giảm xuống ở mức 0. Vì vậy, câu hỏi của bạn có ý nghĩa, +1. p=0.5pp=0prior=11
amip nói rằng Phục hồi lại

1
@Horst, "vấn đề" với các nghiên cứu thiếu năng lực (mà OP đang mô tả) là nếu tất cả các nghiên cứu trong một lĩnh vực nào đó bị thiếu sức mạnh, thì chúng sẽ hiếm khi phát hiện ra một hiệu ứng thực sự, trong khi với xác suất báo cáo một phát hiện sai, có thể dẫn đến hầu hết các khám phá được báo cáo là sai (nghĩa là FDR rất cao). Đây không phải là một tình huống tốt đẹp cho một lĩnh vực khoa học.α
amip nói rằng Rebstate Monica

Câu trả lời:


6

Để tổng hợp kết quả của nhiều nghiên cứu, bạn nên nghĩ đến việc làm cho kết quả của bạn có thể truy cập được để phân tích meta. Một phân tích tổng hợp xem xét dữ liệu của nghiên cứu, hoặc ít nhất là ước tính của nó, mô hình hóa hiệu quả nghiên cứu và đưa ra kết luận có hệ thống bằng cách hình thành một loại nghiên cứu ảo lớn trong số nhiều nghiên cứu nhỏ. Các giá trị riêng lẻ , các linh mục hư cấu và sức mạnh theo kế hoạch không phải là đầu vào quan trọng cho các phân tích tổng hợp.p

Thay vào đó, điều quan trọng là phải có tất cả các nghiên cứu có thể truy cập, bỏ qua các mức năng lượng hoặc kết quả quan trọng. Trong thực tế, thói quen xấu của việc xuất bản chỉ có ý nghĩa và che giấu kết quả không đáng kể dẫn đến sai lệch xuất bản và làm hỏng hồ sơ tổng thể của kết quả khoa học.

Vì vậy, nhà nghiên cứu cá nhân nên tiến hành nghiên cứu theo cách có thể tái tạo, giữ tất cả các hồ sơ và ghi lại tất cả các quy trình thử nghiệm ngay cả khi các chi tiết đó không được các tạp chí xuất bản yêu cầu. Anh ta không nên lo lắng quá nhiều về sức mạnh thấp. Ngay cả một kết quả không phù hợp (= giả thuyết không được bác bỏ) sẽ thêm nhiều người ước tính cho các nghiên cứu tiếp theo, miễn là người ta có thể tự mua đủ chất lượng của dữ liệu.

Nếu bạn cố gắng tổng hợp các phát hiện chỉ bằng giá trị và một số cân nhắc về FDR, thì bạn đang chọn sai vì tất nhiên một nghiên cứu với cỡ mẫu lớn hơn, phương sai nhỏ hơn, các yếu tố gây nhiễu được kiểm soát tốt hơn đáng tin cậy hơn các nghiên cứu khác. Tuy nhiên, tất cả chúng đều tạo ra giá trị và quy trình FDR tốt nhất cho giá trị không bao giờ có thể bù cho chênh lệch chất lượng.ppp


Horst, bạn dường như đang trả lời một câu hỏi khác với câu hỏi.
Alexis

1
Lưu ý rằng câu hỏi là về FDR giữa các nghiên cứu, không phải trong. Điều này liên quan đến một số cách tiếp cận bayes để có một tỷ lệ chung có thể chấp nhận được của các quyết định chính xác. Câu trả lời của tôi nhấn mạnh rằng một phán đoán tổng thể được thực hiện bằng cách tổng hợp dữ liệu và ước tính nghiên cứu, chứ không phải quyết định, vì vậy vấn đề được giải quyết bằng cách tạo ra một "nghiên cứu ảo" khổng lồ, miễn là dữ liệu (không phải là quyết định) của các nghiên cứu đơn lẻ là đáng tin cậy.
Horst Grünbusch

6

Nếu tôi [nhà nghiên cứu riêng lẻ] đoán được kích thước của hiệu ứng mà tôi đang nghiên cứu sẽ là [...], tôi có nên điều chỉnh mức của mình cho đến khi FDR = 0,05 không? Tôi có nên công bố kết quả ở cấp ngay cả khi các nghiên cứu của tôi không đủ sức mạnh và để lại sự xem xét của FDR cho người tiêu dùng của tài liệu không?αα=.05

Tôi chắc chắn sẽ không cố gắng điều chỉnh mức để đạt đến một FDR nhất định,α bởi vì điều đó rất khó: bạn không chỉ cần có ước tính tốt về sức mạnh, mà còn ước tính tốt về mức độ phổ biến của null trong một số định nghĩa mơ hồ (!) dân số các nghiên cứu mà bạn tưởng tượng nghiên cứu của riêng bạn là một phần của. Điều này là khó có thể.

Mặt khác, mặc dù tôi đã tham gia một cuộc thảo luận dài với @DavidColquhoun về một số khiếu nại cụ thể trong bài viết của mình, tôi ở một mức độ nào đó đồng ý với các khuyến nghị thực tế của anh ấy trongp<0.05p0.05pp0.05p

α


5

Đây thực sự là một câu hỏi triết học sâu sắc. Bản thân tôi là một nhà nghiên cứu và tôi đã suy nghĩ một chút về điều này. Nhưng trước khi có câu trả lời, chúng ta hãy xem lại chính xác tỷ lệ phát hiện sai là gì.

FDR so với P P chỉ đơn giản là thước đo xác suất nói rằng có sự khác biệt, khi không có sự khác biệt nào cả và không tính đến sức mạnh. FDR, mặt khác, tính đến sức mạnh. Tuy nhiên, để tính toán FDR, chúng ta phải đưa ra một giả định: xác suất mà chúng ta nhận được kết quả dương tính thực sự là gì? Đó là điều mà chúng tôi sẽ không bao giờ có quyền truy cập, ngoại trừ trong những trường hợp rất khó khăn. Tôi thực sự đã nói về điều này gần đây trong một cuộc hội thảo tôi đã đưa ra. Bạn có thể tìm thấy các slide ở đây .

Đây là một số liệu từ bài viết của David Colquhoun về chủ đề này:

Calquhoun 2014

Tỷ lệ phát hiện sai được tính bằng cách chia số lượng dương tính giả cho tổng số dương tính thật và dương tính giả (trong ví dụ: 495 / (80 + 495) x 100% = 86%!

Thêm một chút về P

Hãy nhìn kỹ vào các slide từ bài giảng của tôi. Tôi đã thảo luận về thực tế rằng các giá trị P được rút ra từ một phân phối. Điều đó có nghĩa là sẽ luôn có cơ hội bạn sẽ tìm thấy một dương tính giả. Vì vậy, ý nghĩa thống kê không nên được coi là sự thật tuyệt đối. Tôi lập luận rằng một cái gì đó có ý nghĩa thống kê nên được hiểu là "Này, có thể có một cái gì đó thú vị ở đây, tôi không chắc chắn, ai đó hãy kiểm tra lại!" Do đó, khái niệm cơ bản về khả năng tái sản xuất trong nghiên cứu!

Vậy, chúng ta làm gì? Chà, một điểm thú vị về hình trên và phân tích của tôi về P và FDR là cách duy nhất chúng ta có thể đạt được sự hiểu biết rõ ràng là thông qua 1) khả năng tái tạo và 2) công bố tất cả các kết quả. Điều đó bao gồm các kết quả tiêu cực (mặc dù kết quả tiêu cực rất khó diễn giải). Tuy nhiên, kết luận mà chúng tôi rút ra từ kết quả của chúng tôi phải phù hợp. Thật không may, nhiều độc giả và nhà nghiên cứu không hiểu đầy đủ các khái niệm về P và FDR. Tôi tin rằng trách nhiệm của độc giả là phân tích kết quả một cách thích hợp ... điều đó có nghĩa là gánh nặng cuối cùng phải đặt lên vai các nhà giáo dục. Xét cho cùng, giá trị P là 0,000000001 là vô nghĩa nếu "mức độ phổ biến" (xem hình trên) là 0 (trong trường hợp đó, tỷ lệ phát hiện sai sẽ là 100%).

Là một nhà nghiên cứu xuất bản, chỉ cần cẩn thận để hiểu đầy đủ kết quả của bạn và đưa ra tuyên bố chỉ mạnh mẽ như bạn muốn. Nếu hóa ra FDR cho nghiên cứu cụ thể của bạn là 86% (như ví dụ ở trên), thì bạn nên rất cẩn thận về những diễn giải của mình. Mặt khác, nếu FDR đủ nhỏ để bạn thoải mái .... vẫn cẩn thận với những diễn giải của bạn.

Tôi hy vọng mọi thứ ở đây đã rõ ràng. Đó là một khái niệm rất quan trọng và tôi rất vui vì bạn đã đưa ra cuộc thảo luận. Hãy cho tôi biết nếu bạn có bất kỳ câu hỏi / mối quan tâm / vv.


1
@Alexis Không có thứ gọi là nghiên cứu quá sức! Miễn là kích thước hiệu ứng được chú ý, không thể có hại trong việc xác định kích thước của hiệu ứng chặt chẽ hơn bằng cách nghiên cứu với cỡ mẫu lớn hơn. Khái niệm 'áp đảo' đối với tôi dường như bị ràng buộc với khái niệm trống rỗng rằng người ta có thể đưa ra những suy luận hữu ích từ việc nhìn vào giá trị P mà không cần nhìn vào dữ liệu quan sát được.
Michael Lew

1
@MichaelLew: Bạn đã đúng rằng vấn đề áp đảo có thể được giải quyết (một phần) nếu bạn luôn xem xét kích thước hiệu ứng ước tính cùng với giá trị p. Tuy nhiên, điều này đánh bại một chút mục đích của giá trị p: Ánh xạ công cụ ước tính hiệu ứng vào kết quả kiểm tra nhị phân "hiện diện / không hiện diện" sao cho tỷ lệ lỗi loại I là trùng khớp. Ngoài ra, phán đoán của bạn về kích thước hiệu ứng có liên quan có thể thay đổi khi bạn thấy giá trị p. Vì vậy, trên thực tế, tốt nhất là giải quyết vấn đề bằng cách đặt trước một phạm vi hiệu ứng có liên quan trước và sau đó so sánh nó với CI nghiên cứu, như đề xuất của Alexis.
Horst Grünbusch

1
θ

1
Ở một mức độ nào đó ... tôi đã nói một cách nghiêm túc về mặt suy luận thống kê , trong khi bạn đang nói nhiều hơn về logic của thiết kế nghiên cứu và một bản thể luận về sản xuất kiến ​​thức khoa học. Điều đó nói rằng, tôi cảm thấy rằng những phát hiện tích cực không được giải thích với nhiều giao thức wrt chăm sóc, v.v ... cũng có khả năng là giả mạo như những phát hiện tiêu cực. Không phải tất cả các hiện tượng của vũ trụ đều có thể nghiên cứu một cách cô lập (ví dụ như cả sức khỏe cá nhân và dân số đồng thời là hóa học, xã hội, hành vi, v.v.), và vì vậy những bất ổn về mặt bản thể phải đi kèm với các nghiên cứu về các hệ thống phức tạp như vậy.
Alexis

2
@ HorstGrünbusch Tôi không thấy câu hỏi ban đầu được đặt trong bối cảnh lai vì nó liên quan đến alpha và beta, không phải giá trị P. Tuy nhiên, câu trả lời của justanotherbrain chắc chắn sẽ cần phải làm việc lại cẩn thận để đặt nó duy nhất trong khung Neyman & Pearson hoặc khung thử nghiệm quan trọng. Tỷ lệ phát hiện sai thực sự chỉ thuộc về trước đây.
Michael Lew

3

Để giúp hiểu các mối quan hệ, tôi đã tạo biểu đồ FDR này như là một hàm xác suất trước cho các quyền hạn khác nhau (với alpha = 0,05). Lưu ý biểu đồ này và phương trình của @Buckminster tính FDR cho tất cả các kết quả có P nhỏ hơn alpha. Biểu đồ sẽ khác nếu bạn chỉ xem các giá trị P rất gần với giá trị P mà bạn tình cờ quan sát được trong một nghiên cứu.


2
và đây là phiên bản ứng dụng Shiny (mặc dù có một chút khác biệt): buckminster.shinyapps.io/FalseDiscoveryRate
Richard Border

1

Để đề nghị xuất bản là một quyết định. Tôi nghĩ rằng đáng để nghiên cứu những lợi ích và chi phí liên quan đến quyết định này là gì.

1) Môi trường học thuật phổ biến thúc đẩy các nhà nghiên cứu xuất bản nhiều hơn, nghĩ rằng các bảng xếp hạng khác nhau của các ấn phẩm sẽ ảnh hưởng đến hồ sơ này. Chúng tôi có thể đoán rằng các tạp chí uy tín hơn có thể kiểm tra chất lượng mạnh mẽ hơn (tôi hy vọng vậy).

2) Có thể có chi phí xã hội liên quan đến việc sản xuất các ấn phẩm quá lớn. Những tài nguyên này có thể được sử dụng tốt hơn ở một nơi khác, như trong nghiên cứu ứng dụng mà không có công bố kết quả. Gần đây có một ấn phẩm mà nhiều ấn phẩm không quan trọng bằng nguồn vì số lượng ấn phẩm mới quá lớn ... :)

http://arxiv.org/pdf/1503.01881v1.pdf

Đối với các nhà nghiên cứu cá nhân, lực lượng số một phải xuất bản nhiều hơn và tôi nghĩ nên có những kiểm tra chất lượng được thể chế hóa, không phụ thuộc vào từng dân tộc để giữ chất lượng ở mức chấp nhận được.

Trong mọi trường hợp, các giá trị tham số của bạn không phải là sự thật, chúng phải được đưa ra các giá trị bằng cách xem xét các chi phí và lợi ích khác nhau liên quan đến số lượng kết quả được công bố khi kết quả thực sự và / hoặc sai lệch.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.