Ai đó có thể giải thích làm thế nào các thủ tục FDR có thể ước tính FDR mà không cần mô hình / giả định về tỷ lệ cơ sở của dương tính thật không?
Ai đó có thể giải thích làm thế nào các thủ tục FDR có thể ước tính FDR mà không cần mô hình / giả định về tỷ lệ cơ sở của dương tính thật không?
Câu trả lời:
Tôi nghĩ đó là một câu hỏi thực sự tốt; quá nhiều người sử dụng thủ tục Stewamini-Hochberg (viết tắt BH; có thể là thủ tục phổ biến nhất để kiểm soát FDR) như một hộp đen. Thật vậy, có một giả định cơ bản mà nó đưa ra trên các số liệu thống kê và nó được ẩn giấu độc đáo trong định nghĩa của các giá trị p!
Đối với giá trị p được xác định rõ cho rằng được phân phối đồng đều ( ) theo giả thuyết null. Đôi khi, thậm chí có thể là , tức là nhỏ hơn so với đồng phục, nhưng điều này chỉ làm cho các thủ tục trở nên bảo thủ hơn (và do đó vẫn còn hiệu lực). Do đó, bằng cách tính giá trị p của bạn, sử dụng kiểm tra t hoặc thực sự bất kỳ kiểm tra nào bạn chọn, bạn đang cung cấp thông tin về phân phối theo giả thuyết null.
Nhưng lưu ý ở đây rằng tôi tiếp tục nói về giả thuyết khống; Vì vậy, những gì bạn đề cập về kiến thức về tỷ lệ cơ sở của dương tính thật là không cần thiết, bạn chỉ cần kiến thức về tỷ lệ cơ sở của dương tính giả! Tại sao lại thế này?
Gọi là số lượng của tất cả các giả thuyết (dương) bị từ chối và là dương tính giả, sau đó:
Vì vậy, để ước tính FDR, bạn cần một cách ước tính , . Bây giờ chúng ta sẽ xem xét các quy tắc quyết định từ chối tất cả các giá trị p . Để làm rõ điều này trong ký hiệu, tôi cũng sẽ viết cho các đại lượng / biến ngẫu nhiên tương ứng của thủ tục đó.
Vì chỉ là kỳ vọng của tổng số lần từ chối, nên bạn có thể ước lượng một cách không thiên vị bằng số lần từ chối mà bạn quan sát, vì vậy , tức là chỉ đơn giản bằng cách đếm có bao nhiêu giá trị p của bạn là .
Bây giờ còn thì sao? Giả sử trong tổng số giả thuyết của bạn là giả thuyết không, sau đó bằng tính đồng nhất (hoặc tính đồng nhất phụ) của các giá trị p dưới giá trị null bạn nhận được:
Nhưng chúng tôi vẫn không biết , nhưng chúng tôi biết rằng , vì vậy một giới hạn trên bảo thủ sẽ chỉ là . Do đó, vì chúng ta chỉ cần giới hạn trên về số lượng dương tính giả, nên chúng ta biết phân phối của chúng là đủ! Và đây chính xác là những gì thủ tục BH làm.
Vì vậy, trong khi nhận xét của Aarong Zeng rằng "thủ tục BH là một cách để kiểm soát FDR ở cấp độ q nhất định. Không phải là ước tính FDR" là không sai, nhưng nó cũng rất sai lệch! Thủ tục BH thực hiện ước tính FDR cho mỗi ngưỡng cho . Và sau đó, nó chọn ngưỡng lớn nhất, sao cho FDR ước tính nằm dưới . Thật vậy, "giá trị p được điều chỉnh" của giả thuyết về cơ bản chỉ là ước tính của FDR ở ngưỡng (tối đa hóa isotonization). Tôi nghĩ rằng thuật toán BH tiêu chuẩn che giấu thực tế này một chút, nhưng nó dễ dàng cho thấy sự tương đương của hai cách tiếp cận này (còn được gọi là "định lý tương đương" trong tài liệu nhiều thử nghiệm).
Như một nhận xét cuối cùng, có các phương thức như thủ tục Store Store thậm chí ước tính từ dữ liệu; điều này có thể tăng sức mạnh thêm một chút. Ngoài ra, về nguyên tắc bạn đúng, người ta cũng có thể mô hình hóa phân phối theo phương án thay thế (tỷ lệ cơ sở tích cực thực sự của bạn) để có được các thủ tục mạnh mẽ hơn; nhưng cho đến nay, nhiều nghiên cứu thử nghiệm chủ yếu tập trung vào việc duy trì kiểm soát lỗi loại I hơn là tối đa hóa sức mạnh. Một khó khăn cũng là trong nhiều trường hợp, mỗi lựa chọn thay thế thực sự của bạn sẽ có phân phối thay thế khác nhau (ví dụ: công suất khác nhau cho các giả thuyết khác nhau), trong khi dưới giá trị p, tất cả các giá trị p đều có cùng phân phối. Điều này làm cho việc mô hình hóa tỷ lệ dương thực sự thậm chí còn khó khăn hơn.
Theo đề xuất của @air, thủ tục Stewamini-Hochberg (BH) đảm bảo kiểm soát FDR. Nó không nhằm mục đích ước tính nó. Do đó, nó đòi hỏi một giả định phụ thuộc yếu giữa các thống kê kiểm tra. [1,2]
Các phương pháp nhằm ước tính FDR [ví dụ 3,4,5] thực sự đòi hỏi một số giả định về quy trình phát sinh để ước tính nó. Họ thường cho rằng thống kê kiểm tra là độc lập. Họ cũng sẽ giả định một cái gì đó trên bản phân phối null của số liệu thống kê kiểm tra. Do đó, việc khởi hành từ phân phối null này, cùng với giả định độc lập, do đó có thể được quy cho các hiệu ứng và FDR có thể được ước tính.
Lưu ý rằng những ý tưởng này xuất hiện trở lại trong tài liệu phát hiện mới lạ bán giám sát. [6].
[1] Stewamini, Y. và Y. Hochberg. Kiểm soát tỷ lệ phát hiện sai: Cách tiếp cận thực tế và mạnh mẽ đối với nhiều thử nghiệm. SERIES XÃ HỘI THỐNG KÊ JOURNAL-HOÀNG GIA 57 (1995): 289 Công289.
[2] Stewamini, Y. và D. Yekutieli. Ban kiểm soát tỷ lệ phát hiện sai trong kiểm tra nhiều lần phụ thuộc. PHỤ LỤC THỐNG KÊ 29, số 4 (2001): 1165 mỏ88.
[3] Storey, JD gay Cách tiếp cận trực tiếp với tỷ lệ phát hiện sai. Tạp chí của Hiệp hội Thống kê Hoàng gia B 64, số 3 (2002): 479 bóng98. doi: 10.111 / 1467-9868.00346.
[4] Efron, B. micro Microaysays, Empirical Bayes và mô hình hai nhóm. Khoa học thống kê 23, không. 1 (2008): 1 trận22.
[5] Jin, Jiashun và T. Tony Cai. Bố trí ước tính mức độ không và tỷ lệ của các hiệu ứng không khác nhau trong nhiều phép so sánh quy mô lớn. Tạp chí của Hiệp hội Thống kê Hoa Kỳ 102, số 478 (ngày 1 tháng 6 năm 2007): 495 Lỗi506. doi: 10.1198 / 016214507000000167.
[6] Claesen, Marc, Jesse Davis, Frank De Smet và Bart De Moor. Đánh giá phân loại nhị phân chỉ sử dụng dữ liệu tích cực và không nhãn. arXiv: 1504.06837 [cs, Stat], ngày 26 tháng 4 năm 2015. http://arxiv.org/abs/1504.06837 .
Khi mô hình cơ bản thực sự không xác định, chúng ta không thể tính toán FDR, nhưng có thể ước tính giá trị FDR bằng phép thử hoán vị . Về cơ bản quy trình kiểm tra hoán vị chỉ là thực hiện kiểm tra giả thuyết nhiều lần bằng cách thay đổi vectơ biến kết quả với hoán vị của nó. Nó cũng có thể được thực hiện dựa trên sự hoán vị của các mẫu, nhưng không phổ biến như mẫu trước đây.
Bài viết ở đây xem xét thủ tục hoán vị tiêu chuẩn cho ước tính FDR và cũng đề xuất một công cụ ước tính FDR mới. Nó sẽ có thể giải quyết câu hỏi của bạn.