Sự khác biệt thực tế giữa các thủ tục tỷ lệ phát hiện sai của Stewamini & Hochberg (1995) và Stewamini & Yekutieli (2001) là gì?

Chương trình thống kê của tôi thực hiện cả hai thủ tục phát hiện sai (FDR) của Stewamini & Hochberg (1995) và Stewamini & Yekutieli (2001). Tôi đã cố gắng hết sức để đọc qua bài báo sau, nhưng nó khá dày đặc về mặt toán học và tôi không chắc chắn một cách hợp lý tôi hiểu sự khác biệt giữa các thủ tục. Tôi có thể thấy từ mã cơ bản trong chương trình thống kê của mình rằng chúng thực sự khác nhau và mã sau bao gồm số lượng q mà tôi đã thấy được đề cập liên quan đến FDR, nhưng cũng không nắm bắt được.

Có bất kỳ lý do nào để thích thủ tục của Stewamini & Hochberg (1995) so với thủ tục của Stewamini & Yekutieli (2001) không? Họ có những giả định khác nhau? Sự khác biệt thực tế giữa các phương pháp này là gì?

Stewamini, Y., và Hochberg, Y. (1995). Kiểm soát tỷ lệ phát hiện sai: một cách tiếp cận thực tế và mạnh mẽ để thử nghiệm nhiều lần. Tạp chí của Hiệp hội Thống kê Hoàng gia Series B, 57, 289 Ảo300.

Stewamini, Y. và Yekutieli, D. (2001). Việc kiểm soát tỷ lệ phát hiện sai trong nhiều thử nghiệm dưới sự phụ thuộc. Biên niên sử Thống kê 29, 1165 Từ1188.

Bài viết năm 1999 được tham chiếu trong các ý kiến dưới đây: Yekutieli, D., & Stewamini, Y. (1999). Tỷ lệ phát hiện sai dựa trên việc lấy mẫu lại kiểm soát nhiều quy trình kiểm tra để thống kê kiểm tra tương quan. Tạp chí Kế hoạch và Suy luận Thống kê, 82 (1), 171-196.

post-hoc false-discovery-rate

— russellpierce
nguồn

Tôi nghĩ rằng bài báo năm 2001 thiết lập các thuộc tính của FDR (1995) dưới sự phụ thuộc. Yekutieli và Stewamini (Tạp chí Lập kế hoạch và Suy luận Thống kê, 1999) thiết lập một quy trình FDR khác nhau. Bất kỳ cơ hội đó là một trong những bạn đang tìm kiếm?

— julieth

@julieth: Đó là ý nghĩa của tôi về bài báo năm 2001 khi đọc bản tóm tắt một mình, nhưng các công thức trong bài viết (ví dụ 27 - 30) dường như liên quan đến một số lượng được gọi là q. Sau đó, một lần nữa, bài báo năm 1999 này bạn trích dẫn. Mặc dù vậy, ý nghĩa của tôi là bài báo năm 1999 thực hiện phương pháp lấy mẫu lại rõ ràng (nhìn vào mã) không phải là điều mà chương trình thống kê của tôi đang làm (R; p.adjust) ... nhưng tôi có thể sai.

— russellpierce

Vào cuối bài báo năm 2001, bài báo năm 1999 được trích dẫn và họ nói "Cuối cùng, hãy nhớ lại quy trình dựa trên việc lấy lại mẫu của Yekutieli và Stewamini (1999), cố gắng đối phó với vấn đề trên và đồng thời sử dụng thông tin về sự phụ thuộc cấu trúc có nguồn gốc từ mẫu. Quy trình dựa trên việc lấy mẫu lại mạnh hơn, với chi phí phức tạp hơn và chỉ kiểm soát FDR gần đúng. " ... Vì vậy, tôi nghĩ rằng bài báo năm 2001 đã cung cấp một giải pháp tính toán dạng đóng và đó là những gì chương trình thống kê của tôi đang thực hiện.

— russellpierce

Ok, vì vậy bạn đang sử dụng p.adjust. Bài báo 99 hoàn toàn khác nhau như bạn đã lưu ý. Tôi luôn thấy tùy chọn BY trong p.adjust và không chú ý. Bài báo năm 2001 thường được trích dẫn liên quan đến bằng chứng về FDR và 'sự phụ thuộc hồi quy tích cực'. Tôi chưa bao giờ thấy nó là trích dẫn một công cụ ước tính khác nhau, nhưng có lẽ nó ở trong đó. Có vẻ như tôi cần đọc lại nó.

— lúc 2:51

Câu trả lời:

Stewamini và Hochberg (1995) đã đưa ra tỷ lệ phát hiện sai. Stewamini và Yekutieli (2001) đã chứng minh rằng công cụ ước tính là hợp lệ dưới một số hình thức phụ thuộc. Sự phụ thuộc có thể phát sinh như sau. Xem xét biến liên tục được sử dụng trong kiểm tra t và một biến khác tương quan với nó; ví dụ, kiểm tra nếu BMI khác nhau ở hai nhóm và nếu chu vi vòng eo khác nhau ở hai nhóm này. Vì các biến này tương quan với nhau, giá trị p kết quả cũng sẽ tương quan. Yekutieli và Stewamini (1999) đã phát triển một quy trình kiểm soát FDR khác, có thể được sử dụng dưới sự phụ thuộc chung bằng cách lấy lại phân phối null. Bởi vì so sánh liên quan đến phân phối hoán vị null, khi tổng số tích cực thực sự tăng lên, phương pháp trở nên bảo thủ hơn. Hóa ra BH 1995 cũng bảo thủ khi số lượng tích cực thực sự tăng lên. Để cải thiện điều này, Stewamini và Hochberg (2000) đã giới thiệu quy trình FDR thích ứng. Ước tính bắt buộc này của một tham số, tỷ lệ null, cũng được sử dụng trong công cụ ước tính pFDR của Store. Storey đưa ra so sánh và lập luận rằng phương pháp của ông mạnh hơn và nhấn mạnh bản chất bảo thủ của thủ tục năm 1995. Storey cũng có kết quả và mô phỏng dưới sự phụ thuộc.

Tất cả các bài kiểm tra trên có giá trị dưới sự độc lập. Câu hỏi đặt ra là những loại khởi hành từ độc lập có thể giải quyết những gì.

Suy nghĩ hiện tại của tôi là nếu bạn không mong đợi quá nhiều tích cực thực sự thì quy trình BY (1999) là tốt vì nó kết hợp các tính năng phân phối và sự phụ thuộc. Tuy nhiên, tôi không biết về việc thực hiện. Phương pháp của Store được thiết kế cho nhiều mặt tích cực thực sự với một số sự phụ thuộc. BH 1995 cung cấp một giải pháp thay thế cho tỷ lệ lỗi thông minh của gia đình và nó vẫn còn bảo thủ.

Carloamini, Y và Y Hochberg. Về kiểm soát thích ứng của tỷ lệ phát hiện sai trong nhiều thử nghiệm với thống kê độc lập. Tạp chí Thống kê Giáo dục và Hành vi, 2000.

— tháng sáu
nguồn

Cảm ơn rất nhiều! Bạn có thể sửa lại câu hỏi của mình để làm rõ các điểm / vấn đề sau: "lấy lại phân phối null" là bài báo năm 1999 không? Bạn vui lòng cung cấp trích dẫn cho bài báo 2000? Bạn có vẻ quen thuộc với p.adjust, có thực sự đang thực hiện thủ tục BY không? Phải sử dụng BH khi kiểm tra giả thuyết không phụ thuộc? Điều gì gây ra các xét nghiệm giả thuyết được coi là phụ thuộc? - Xin vui lòng cho tôi biết nếu bất kỳ câu hỏi trong số này vượt quá phạm vi hiện tại và yêu cầu một câu hỏi mới được hỏi.

— russellpierce

p.adjust có các tùy chọn cho cả hai (BH và BY). Tuy nhiên, tôi nghĩ rằng những điều này là như nhau, vì vậy tôi đã bỏ lỡ một cái gì đó.

— julieth

Và mã cơ bản cũng khác nhau (tôi đã kiểm tra) vì vậy chúng sẽ tạo ra các số khác nhau.

— russellpierce

Vì vậy, thủ tục nào mà bạn nghĩ p.adjust đang thực hiện với đối số BY? Tôi không nghĩ đó là thủ tục năm 1999. Mã cơ bản là pmin (1, cummin (q * n / i * p [o])) [ro]. BH là pmin (1, cummin (n / i * p [o])) [ro]. Vì vậy, chúng chỉ khác nhau về q là tổng (1 / (1: n)) trong đó n = số lượng giá trị. o và ro chỉ phục vụ để đặt các giá trị p theo thứ tự số giảm dần cho hàm và sau đó nhổ chúng ra theo thứ tự người dùng đã nhập chúng vào.

— russellpierce

Vì vậy, vì không có câu trả lời mới nào được đưa vào, tôi sẽ chấp nhận câu trả lời này và tóm tắt sự hiểu biết của tôi. p.adjust có thể bị sẩy thai vì BY. Những gì được thực hiện không phải là lấy mẫu lại. BH, 2000 đã giới thiệu quy trình FDR thích ứng và điều này liên quan đến việc ước tính tỷ lệ null, có thể là q xuất hiện trong mã BY. Tạm thời, có vẻ như điều hợp lý cần làm là trích dẫn trực tiếp p.adjust vì điều đó phản ánh quy trình thực tế được sử dụng khi bạn sử dụng tùy chọn "B" NG "và chỉ cần biết rằng" B "NG" có thể thực sự đang thực hiện Stewamini & Hochberg, 2000.

— russellpierce

p.adjust không bị sẩy thai vì BY. Tài liệu tham khảo là Định lý 1.3 (chứng minh trong Mục 5 trên tr.1182) trong bài viết:

Stewamini, Y. và Yekutieli, D. (2001). Việc kiểm soát tỷ lệ phát hiện sai trong nhiều thử nghiệm dưới sự phụ thuộc. Biên niên sử Thống kê 29, 1165 Từ1188.

Vì bài viết này thảo luận về một số điều chỉnh khác nhau, tham chiếu trên trang trợ giúp (tại thời điểm viết) cho p.adjust () có phần mơ hồ. Phương pháp này được đảm bảo để kiểm soát FDR, theo tỷ lệ đã nêu, theo cấu trúc phụ thuộc chung nhất. Có những nhận xét thông tin trong các slide của Christopher Genovese tại: www.stat.cmu.edu/~genovese/talks/hannover1-04.pdf Lưu ý nhận xét về slide 37, đề cập đến phương pháp Định lý 1.3 trong bài báo BY 2001 [phương thức = 'BY' với p.adjust ()] rằng: "Thật không may, điều này thường rất bảo thủ, đôi khi còn hơn cả Bonferroni."

Ví dụ số: method='BY' vsmethod='BH'

Phương pháp so sánh sau đây = 'BY' với phương thức = 'BH', sử dụng hàm p.adjust () của R, cho các giá trị p từ cột 2 của Bảng 2 trong bài báo của Stewamini và Hochberg (2000):

> p <-    c(0.85628,0.60282,0.44008,0.41998,0.3864,0.3689,0.31162,0.23522,0.20964,
0.19388,0.15872,0.14374,0.10026,0.08226,0.07912,0.0659,0.05802,0.05572,
0.0549,0.04678,0.0465,0.04104,0.02036,0.00964,0.00904,0.00748,0.00404,
0.00282,0.002,0.0018,2e-05,2e-05,2e-05,0)
> pmat <- rbind(p,p.adjust(p, method='BH'),p.adjust(p, method='BY'))
> rownames(pmat)<-c("pval","adj='BH","adj='BY'")
> round(pmat,4)

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] pval 0.8563 0.6028 0.4401 0.4200 0.3864 0.3689 0.3116 0.2352 0.2096 adj='BH 0.8563 0.6211 0.4676 0.4606 0.4379 0.4325 0.3784 0.2962 0.2741 adj='BY' 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] pval 0.1939 0.1587 0.1437 0.1003 0.0823 0.0791 0.0659 0.0580 0.0557 adj='BH 0.2637 0.2249 0.2125 0.1549 0.1332 0.1332 0.1179 0.1096 0.1096 adj='BY' 1.0000 0.9260 0.8751 0.6381 0.5485 0.5485 0.4856 0.4513 0.4513 [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] pval 0.0549 0.0468 0.0465 0.0410 0.0204 0.0096 0.0090 0.0075 0.0040 adj='BH 0.1096 0.1060 0.1060 0.1060 0.0577 0.0298 0.0298 0.0283 0.0172 adj='BY' 0.4513 0.4367 0.4367 0.4367 0.2376 0.1227 0.1227 0.1164 0.0707 [,28] [,29] [,30] [,31] [,32] [,33] [,34] pval 0.0028 0.0020 0.0018 0e+00 0e+00 0e+00 0 adj='BH 0.0137 0.0113 0.0113 2e-04 2e-04 2e-04 0 adj='BY' 0.0564 0.0467 0.0467 7e-04 7e-04 7e-04 0

$\sum_{i=1}^m (1/i)$ $m$

> mult <- sapply(c(11, 30, 34, 226, 1674, 12365), function(i)sum(1/(1:i)))

setNames (nhiều, dán (c ('m =', rep ('', 5)), c (11, 30, 34, 226, 1674, 12365))) m = 11 30 34 226 1674 12365 3.020 3.995 4.118 6.000 8.000 10.000

$m$

— John Maindonald
nguồn