Sửa lỗi cho nhiều thử nghiệm trên một số lượng thử nghiệm khiêm tốn (10-20) với FDR?

Tỷ lệ khám phá sai (Stewamini-Hochberg) thường được sử dụng trên 'Dữ liệu lớn', chẳng hạn như nghiên cứu di truyền sử dụng 100 bài kiểm tra. Nhưng nó cũng có thể được sử dụng trên số lượng thử nghiệm nhỏ hơn? Ví dụ, nhìn vào kết quả của hai nhóm (nam và nữ) trên, giả sử, 10-20 câu hỏi khác nhau. Thủ tục FDR có mất giá trị / ý nghĩa / sức mạnh trong những trường hợp này không?

multiple-comparisons small-sample false-discovery-rate

— Ẩn danh
nguồn

Tôi thấy mọi người nhầm lẫn điều này mọi lúc, cũng trong diễn đàn này. Tôi nghĩ rằng điều này được gây ra ở mức độ lớn bởi vì trong thực tế, quy trình của Stewamini-Hochberg được sử dụng như một từ đồng nghĩa của Tỷ lệ khám phá sai (và như một hộp đen để "điều chỉnh" giá trị p theo yêu cầu của người đánh giá cho bài viết của họ). Người ta phải tách biệt rõ ràng khái niệm FDR khỏi phương pháp của Stewamini-Hochberg. Loại thứ nhất là lỗi loại I tổng quát, trong khi loại thứ hai là quy trình kiểm tra nhiều lần kiểm soát lỗi đó. Điều này rất giống với quy trình FWER và Bonferroni.

Thật vậy, không có lý do ngay lập tức tại sao số lượng giả thuyết nên quan trọng khi bạn muốn sử dụng các phương pháp kiểm soát FDR. Nó chỉ phụ thuộc vào mục tiêu của bạn. Cụ thể, giả sử bạn đang kiểm tra giả thuyết và quy trình của bạn từ chối của chúng với từ chối sai. $m$ $R$ $V$

$= \Pr[V \geq 1]$ $\text{FDR}$ $R$

FDR = E [\frac{V}{max R, 1}]

$\text{FDR} = \mathbb E\left[\frac{V}{\max{R,1}}\right]$

Do đó, câu trả lời cho câu hỏi của bạn hoàn toàn phụ thuộc vào những gì bạn muốn đạt được và không có lý do nội tại tại sao nhỏ sẽ có vấn đề. Chỉ để minh họa thêm một chút: Ví dụ phân tích dữ liệu trong bài báo bán kết năm 1995 của Stewamini-Hochberg chỉ bao gồm giả thuyết, và tất nhiên nó cũng có giá trị cho trường hợp đó! $m$ $m=15$

Tất nhiên, có một lời cảnh báo cho câu trả lời của tôi: Quy trình BH chỉ trở nên phổ biến sau khi bộ dữ liệu "đồ sộ" (ví dụ Microarrays) bắt đầu có sẵn. Và như bạn đề cập, nó thường được sử dụng cho ứng dụng "Dữ liệu lớn" như vậy. Nhưng điều này chỉ là vì trong những trường hợp như vậy, như là một tiêu chí có ý nghĩa hơn, ví dụ vì nó có khả năng mở rộng và thích nghi và tạo điều kiện cho nghiên cứu khám phá. Mặt khác, FWER rất nghiêm ngặt, theo yêu cầu của các nghiên cứu lâm sàng, v.v. và trừng phạt bạn quá nhiều vì đã khám phá quá nhiều lựa chọn đồng thời (nghĩa là không phù hợp với công việc khám phá). $\text{FDR}$

Bây giờ, giả sử bạn đã quyết định rằng FDR là tiêu chí phù hợp cho ứng dụng của bạn. Có phải Stewamini Hochberg là lựa chọn đúng đắn để kiểm soát FDR khi số lượng giả thuyết thấp? Tôi sẽ nói có, vì nó có giá trị thống kê cho thấp . Nhưng đối với thấp, ví dụ, bạn cũng có thể sử dụng một quy trình khác, cụ thể là thủ tục của Stewamini và Liu , cũng kiểm soát FDR. Trên thực tế, các tác giả đề nghị sử dụng nó (trên Stewamini-Hochberg) khi $m$ $m$ $m \leq 14$ và hầu hết các giả thuyết được dự kiến là sai. Vì vậy, bạn thấy rằng có những lựa chọn thay thế cho kiểm soát FDR! Trong thực tế, tôi vẫn sử dụng BH chỉ vì nó được thiết lập rất tốt và bởi vì những lợi ích của việc sử dụng Stewamini-Liu sẽ không đáng kể trong hầu hết các trường hợp nếu có.

Trên một lưu ý liên quan cuối cùng, thực sự có một số quy trình kiểm soát FDR mà bạn không nên sử dụng cho thấp ! Chúng bao gồm tất cả các thủ tục dựa trên local-fdr, ví dụ như được triển khai trong các gói R "fdrtool" và "locfdr". $m$

— không khí
nguồn

Nếu tôi hiểu điều này một cách chính xác, về mặt lý thuyết bạn có thể thực hiện phép tính FDR hợp pháp cho m = 1 (nó sẽ tương đương với giá trị p). Đúng không? Trước khi đọc câu trả lời của bạn, tôi đã nghĩ rằng bạn không thể sử dụng FDR ở cỡ mẫu nhỏ vì bạn không thể tính toán một cách có ý nghĩa số lượng "dương tính giả" dự kiến ... nhưng đó không phải là trường hợp, phải không?

— adam.r