Stewamini & Hochberg định nghĩa tỷ lệ phát hiện sai theo cách tương tự như tôi làm, là một phần của các xét nghiệm dương tính là dương tính giả. Vì vậy, nếu bạn sử dụng quy trình của họ để so sánh nhiều lần, bạn sẽ kiểm soát FDR đúng cách. Tuy nhiên, điều đáng chú ý là có khá nhiều biến thể của phương thức BH. Các hội thảo của Carloamini tại Berkeley đều có trên Youtube và rất đáng xem:
Tôi không chắc tại sao @amoeba nói "Điều này được xây dựng quá mạnh mẽ và thực sự có thể gây hiểu lầm". Tôi muốn biết lý do tại sao anh ấy / cô ấy nghĩ vậy. Đối số thuyết phục nhất đến từ các thử nghiệm t mô phỏng (phần 6). Điều đó bắt chước những gì hầu hết mọi người làm trong thực tế và nó cho thấy rằng nếu bạn quan sát P gần 0,047 và tuyên bố đã thực hiện một khám phá, bạn sẽ sai ít nhất 26% thời gian. Cái mà có thể sai lầm?
Tất nhiên, tôi không nên mô tả điều này là tối thiểu. Đó là những gì bạn nhận được nếu bạn cho rằng có 50% cơ hội có hiệu lực thực sự. Tất nhiên, nếu bạn cho rằng hầu hết các giả thuyết của bạn đều đúng trước, thì bạn có thể nhận được FDR thấp hơn 26%, nhưng bạn có thể tưởng tượng sự vui nhộn sẽ chào đón một tuyên bố rằng bạn đã khám phá trên cơ sở giả định không rằng bạn đã chắc chắn 90% trước rằng kết luận của bạn sẽ đúng. 26% là FDR tối thiểu cho rằng đó không phải là cơ sở hợp lý để suy luận về bất kỳ xác suất trước nào lớn hơn 0,5.
Cho rằng linh cảm thường không đứng lên khi được kiểm tra, có thể chỉ có 10% khả năng bất kỳ giả thuyết cụ thể nào là đúng, và trong trường hợp đó, FDR sẽ là thảm họa 76%.
Đúng là tất cả những điều này phụ thuộc vào giả thuyết null là không có sự khác biệt nào (cái gọi là điểm null). Các lựa chọn khác có thể cho kết quả khác nhau. Nhưng điểm null là thứ mà hầu hết mọi người sử dụng trong cuộc sống thực (mặc dù có thể không nhận thức được điều đó). Hơn nữa, điểm null dường như là thứ hoàn toàn thích hợp để sử dụng. Đôi khi nó phản đối rằng sự khác biệt thực sự không bao giờ chính xác bằng không. Tôi không đồng ý. Chúng tôi muốn biết liệu kết quả của chúng tôi có thể phân biệt được với trường hợp cả hai nhóm được điều trị giống hệt nhau hay không, vì vậy sự khác biệt thực sự là chính xác. Nếu chúng tôi quyết định rằng dữ liệu ngoài không tương thích với chế độ xem đó, chúng tôi sẽ tiếp tục ước tính kích thước hiệu ứng. và tại thời điểm đó, chúng tôi đưa ra đánh giá riêng biệt về việc liệu hiệu ứng, mặc dù thực tế, có đủ lớn để trở nên quan trọng trong thực tế hay không.Blog của Deborah Mayo .
@amoeba Cảm ơn bạn đã phản hồi.
Những gì cuộc thảo luận trên blog của Mayo cho thấy chủ yếu là Mayo không đồng ý với tôi, mặc dù cô ấy không nói rõ tại sao, với tôi ít nhất). Stephen Senn chỉ ra một cách chính xác rằng bạn có thể nhận được một câu trả lời khác nếu bạn đưa ra một phân phối trước khác. Điều đó đối với tôi chỉ thú vị đối với người Bayes chủ quan.
Nó chắc chắn không liên quan đến thực tiễn hàng ngày luôn luôn giả định một điểm không. Và như tôi đã giải thích, đó dường như là một điều hoàn toàn hợp lý để làm.
Nhiều nhà thống kê chuyên nghiệp đã đưa ra kết luận giống như của tôi. Hãy thử Sellke & Berger và Valen Johnson (tài liệu tham khảo trong bài viết của tôi). Không có gì gây tranh cãi (hoặc rất nguyên bản) về tuyên bố của tôi.
Điểm khác của bạn, về việc giả sử 0,5 trước, đối với tôi dường như không phải là một giả định. Như tôi đã giải thích ở trên, bất cứ điều gì trên 0,5 woold đều không được chấp nhận trong thực tế. Và bất cứ điều gì dưới 0,5 làm cho tỷ lệ phát hiện sai thậm chí cao hơn (ví dụ 76% nếu trước đó là 0,1). Do đó, hoàn toàn hợp lý khi nói rằng 26% là tỷ lệ phát hiện sai tối thiểu mà bạn có thể mong đợi nếu bạn quan sát P = 0,047 trong một thử nghiệm.
Tôi đã suy nghĩ nhiều hơn về câu hỏi này. Định nghĩa về FDR của tôi cũng giống như của Stewamini - phần thử nghiệm dương tính là sai. Nhưng nó được áp dụng cho một vấn đề khá khác biệt, đó là việc giải thích một bài kiểm tra. Với nhận thức muộn có lẽ sẽ tốt hơn nếu tôi chọn một thuật ngữ khác.
Trong trường hợp thử nghiệm đơn lẻ, B & H giữ nguyên giá trị P, do đó, nó không nói gì về tỷ lệ phát hiện sai theo nghĩa mà tôi sử dụng thuật ngữ này.
es tất nhiên bạn đúng. Stewamini & Hochberg, và những người khác làm việc trên nhiều so sánh, chỉ nhằm mục đích sửa tỷ lệ lỗi loại 1. Vì vậy, họ kết thúc với một giá trị P "chính xác". Nó có cùng các vấn đề như bất kỳ giá trị P nào khác. Trong bài viết mới nhất của mình, tôi đã thay đổi tên từ FDR thành Rủi ro Tích cực Sai (FPR) nhằm tránh sự hiểu lầm này.
Chúng tôi cũng đã viết một ứng dụng web để thực hiện một số tính toán (sau khi nhận thấy rằng có rất ít người tải xuống các tập lệnh R mà chúng tôi cung cấp). Đó là tại https://davidcolquhoun.shinyapps.io/3-calcs-final/ Tất cả các ý kiến về itare hoan nghênh (vui lòng đọc tab Ghi chú trước).
PS Máy tính web hiện có một ứng dụng mới (vĩnh viễn, tôi hy vọng) tại http://fpr-calc.ucl.ac.uk/
Shiny.io rất dễ sử dụng, nhưng rất tốn kém nếu có ai thực sự sử dụng ứng dụng :-(
Tôi đã trở lại cuộc thảo luận này, bây giờ bài báo thứ hai của tôi về chủ đề này sắp xuất hiện trong Khoa học mở của Hiệp hội Hoàng gia. Đó là tại https://www.biorxiv.org/content/early/2017/08/07/144337
Tôi nhận ra rằng sai lầm lớn nhất mà tôi mắc phải trong bài báo đầu tiên là sử dụng thuật ngữ "tỷ lệ phát hiện sai (FDR)". Trong bài báo mới tôi nói rõ hơn rằng tôi không nói gì về vấn đề so sánh nhiều. Tôi chỉ giải quyết câu hỏi về cách diễn giải giá trị P được quan sát trong một thử nghiệm không thiên vị.
Trong phiên bản mới nhất, tôi đề cập đến xác suất rằng kết quả là rủi ro dương tính giả (FPR) chứ không phải FDR, với hy vọng giảm nhầm lẫn. Tôi cũng ủng hộ cách tiếp cận Bayes ngược - xác định xác suất trước đó sẽ cần để đảm bảo FPR, giả sử, 5%. Nếu bạn quan sát P = 0,05, tức là 0,87. Nói cách khác, bạn phải gần như (87%) chắc chắn rằng đã có hiệu quả thực sự trước khi thực hiện thử nghiệm để đạt được FPR là 5% (đó là điều mà hầu hết mọi người vẫn tin, nhầm, p = 0,05 có nghĩa).