Chúng ta có nên giải quyết nhiều điều chỉnh so sánh khi sử dụng khoảng tin cậy?


26

Giả sử chúng ta có một kịch bản so sánh nhiều lần, chẳng hạn như suy luận sau hoc về thống kê theo cặp, hoặc giống như hồi quy bội, trong đó chúng ta đang thực hiện tổng cộng so sánh. Giả sử cũng vậy, chúng tôi muốn hỗ trợ suy luận trong các bội số này bằng các khoảng tin cậy.m

1. Chúng tôi có áp dụng nhiều điều chỉnh so sánh cho các TCTD không? Nghĩa là, giống như nhiều phép so sánh bắt buộc xác định lại với tỷ lệ lỗi thông minh của gia đình (FWER) hoặc tỷ lệ phát hiện sai (FDR), có nghĩa là sự tin cậy (hoặc độ tin cậy 1 , hoặc sự không chắc chắn, hoặc dự đoán, hoặc suy luận ... chọn khoảng của bạn) có bị thay đổi tương tự bởi nhiều so sánh không? Tôi nhận ra rằng một câu trả lời tiêu cực ở đây sẽ đưa ra những câu hỏi còn lại của tôi.α

2. Có bản dịch đơn giản của nhiều quy trình điều chỉnh so sánh từ kiểm tra giả thuyết, đến ước lượng khoảng không? Ví dụ: sẽ điều chỉnh tập trung vào việc thay đổi thuật ngữ trong khoảng tin cậy: ?CI-levelCIθ=(θ^±t(1CI-level)/2σ^θ)

3. Làm thế nào chúng ta sẽ giải quyết các thủ tục kiểm soát tăng cường hoặc giảm dần đối với các TCTD? Một số điều chỉnh tỷ lệ lỗi thông minh của gia đình từ phương pháp kiểm tra giả thuyết đến suy luận là 'tĩnh' trong đó chính xác là điều chỉnh tương tự được thực hiện cho từng suy luận riêng biệt. Ví dụ: điều chỉnh Bonferroni được thực hiện bằng cách thay đổi tiêu chí loại bỏ từ:

  • từ chối nếu tới:pα2
  • từ chối nếu ,pα2m

nhưng điều chỉnh tăng dần Holm-Bonferroni không phải là 'tĩnh', mà là được thực hiện bởi:

  • đầu tiên đặt hàng giá trị nhỏ nhất đến lớn nhất, và sau đóp
  • từ chối nếu , (trong đó tôi lập chỉ mục thứ tự của giá trị p ) cho đến khip1(1α2)1m+1iip
  • chúng tôi không từ chối một giả thuyết null và tự động không từ chối tất cả các giả thuyết null sau đó.

Bởi vì từ chối / không từ chối không xảy ra với các TCTD (chính thức hơn, xem các tài liệu tham khảo bên dưới) có nghĩa là các quy trình từng bước không dịch (nghĩa là bao gồm tất cả các phương pháp FDR)? Tôi nên cảnh báo ở đây rằng tôi không hỏi làm thế nào để dịch các TCTD thành các bài kiểm tra giả thuyết (đại diện của tài liệu 'kiểm tra giả thuyết trực quan' được trích dẫn dưới đây nhận được câu hỏi không tầm thường đó).

4. Điều gì về bất kỳ khoảng thời gian nào khác mà tôi đã đề cập trong ngoặc đơn trong 1?


1 Trời ạ, tôi chắc chắn hy vọng tôi không gặp rắc rối với những phong cách Bayes ngọt ngào, ngọt ngào đó bằng cách sử dụng từ này ở đây. :)


Tài liệu tham khảo
Afshartous, D. và Preston, R. (2010). Khoảng tin cậy cho dữ liệu phụ thuộc: Đánh đồng không trùng lặp với ý nghĩa thống kê. Thống kê tính toán & phân tích dữ liệu , 54 (10): 2296 Lỗi2305.

Cumming, G. (2009). Suy luận bằng mắt: đọc sự chồng chéo của khoảng tin cậy độc lập. Thống kê trong y học , 28 (2): 205 Phản 220.

Payton, ME, Greenstone, MH và Schenker, N. (2003). Các khoảng tin cậy chồng chéo hoặc các khoảng lỗi tiêu chuẩn: Chúng có ý nghĩa gì về mặt ý nghĩa thống kê? Tạp chí khoa học côn trùng , 3 (34): 1 Vé6.

Tryon, WW và Lewis, C. (2008). Một phương pháp khoảng tin cậy suy luận để thiết lập sự tương đương thống kê điều chỉnh hệ số giảm của Tryon (2001). Phương pháp tâm lý học , 13 (3): 272 Di277.


Bây giờ tôi không có thời gian để nghiên cứu một câu trả lời đầy đủ, vì vậy tôi sẽ trả lời trong một bình luận.
Harvey Motulsky

[Nhận xét cuối cùng đã bị cắt ngắn. [Tôi không có thời gian để nghiên cứu một câu trả lời đầy đủ ngay bây giờ, vì vậy tôi sẽ trả lời trong một bình luận. 1) Có, nó có ý nghĩa trong các tình huống giống như nhiều so sánh để kiểm tra giả thuyết có ý nghĩa. 2. So sánh nhiều Bonferroni, Tukey và Dunnet có thể dễ dàng thích nghi với việc tạo khoảng tin cậy trong đó mức độ tin cậy áp dụng cho toàn bộ gia đình. 3. Theo như tôi có thể nói, không có khả năng tạo khoảng tin cậy từ phương pháp Holm. 4. Tôi không có manh mối!
Harvey Motulsky

2
pα

Câu trả lời:


9

Một chủ đề tuyệt vời, đáng buồn thay, không được quan tâm đầy đủ.

Khi thảo luận về nhiều tham số và khoảng tin cậy, cần phân biệt giữa suy luận đồng thời và suy luận chọn lọc . Tham chiếu [2] đưa ra một minh chứng tuyệt vời của vấn đề.

1-α

Hai khái niệm này có thể được kết hợp: Giả sử bạn chỉ xây dựng các khoảng trên các tham số mà bạn đã từ chối giả thuyết null. Bạn đang đối phó rõ ràng với suy luận chọn lọc. Bạn có thể muốn đảm bảo bảo hiểm đồng thời của các tham số đã chọn hoặc phạm vi bảo hiểm cận biên của các tham số đã chọn. Cái trước sẽ là đối tác của điều khiển FWER, và cái sau của điều khiển FDR.

Bây giờ hơn nữa: Không phải tất cả các quy trình kiểm tra đều có các khoảng thời gian đi kèm. Để biết quy trình FWER và khoảng thời gian đi kèm của chúng, xem [3]. Đáng buồn thay, tài liệu tham khảo này là một chút lỗi thời. Đối với đối tác khoảng thời gian của kiểm soát BH FDR, xem [1] và một ứng dụng trong [4] (cũng bao gồm đánh giá ngắn gọn về vấn đề này). Xin lưu ý rằng đây là một lĩnh vực nghiên cứu mới và tích cực để bạn có thể mong đợi nhiều kết quả hơn trong tương lai gần.

[1] Stewamini, Y. và D. Yekutieli. Khám phá sai lầm về tỷ lệ tin cậy được điều chỉnh theo tỷ lệ cho các thông số được chọn. Tạp chí của Hiệp hội thống kê Mỹ 100, không. 469 (2005): 71 Hàng81.

[2] Cox, DR Điên Một nhận xét về nhiều phương pháp so sánh. Kỹ thuật số 7, không. 2 (1965): 223 Từ 24.

[3] Hồ Chí Minh, Y. và AC Tamhane. Nhiều thủ tục so sánh. New York, NY, Hoa Kỳ: John Wiley & Sons, Inc., 1987.

[4] Rosenblatt, JD và Y. Stewamini. Tương quan chọn lọc của người Viking; Không phải Voodoo.


1

Tôi sẽ không bao giờđiều chỉnh khoảng tin cậy cho nhiều thử nghiệm. Tôi không phải là một fan hâm mộ lớn của giá trị p, bởi vì tôi tin rằng việc ước tính các tham số là cách sử dụng số liệu thống kê tốt hơn so với các giả thuyết thử nghiệm không bao giờ chính xác. Tuy nhiên, tôi thừa nhận rằng thử nghiệm giả thuyết có giá trị của nó, nói rằng một thử nghiệm ngẫu nhiên có kiểm soát trong đó ít nhất người ta có thể lập luận rằng không có triệu chứng, nếu một phương pháp điều trị không hiệu quả, giả thuyết khống là đúng. Tuy nhiên như tôi đã nói ở nơi khác [1], thường thì điều này liên quan đến việc có một kết quả chính. Tuy nhiên, khoảng tin cậy, theo định nghĩa thường xuyên, không liên quan đến các giả thuyết và do đó không cần điều chỉnh cho các so sánh khác, có khả năng không liên quan. Giả sử tôi đang thử nghiệm các kiểu hình liên quan đến một gen cụ thể, giả sử chiều cao và huyết áp. TÔI' Tôi muốn biết sự khác biệt về chiều cao giữa những người có và không có gen như thế nào và tôi đã ước tính nó tốt như thế nào. Tôi không thấy rằng thực tế là tôi cũng đo huyết áp có liên quan gì đến nó. Điều quan trọng là nếu hai người này là những người quan trọng duy nhất trong số hàng trăm người chúng tôi đã thử nghiệm. Sau đó, có khả năng là sự khác biệt lớn hơn các thí nghiệm phản tác dụng dự kiến ​​khi chúng ta chỉ đo chiều cao và huyết áp, nhưng đã thực hiện hàng trăm thí nghiệm. Tuy nhiên, trong những trường hợp đó, không có sự điều chỉnh đơn giản nào có hiệu quả, và tốt hơn là đưa ra ước tính chưa được điều chỉnh nhưng làm sạch như cách bạn có những so sánh này. Chúng tôi cũng đã công bố một số lỗi trong khoảng tin cậy chồng chéo. [2] Tôi thấy rằng thực tế là tôi cũng đo được huyết áp có liên quan gì đến nó. Điều quan trọng là nếu hai người này là những người quan trọng duy nhất trong số hàng trăm người chúng tôi đã thử nghiệm. Sau đó, có khả năng là sự khác biệt lớn hơn các thí nghiệm phản tác dụng dự kiến ​​khi chúng ta chỉ đo chiều cao và huyết áp, nhưng đã thực hiện hàng trăm thí nghiệm. Tuy nhiên, trong những trường hợp đó, không có sự điều chỉnh đơn giản nào có hiệu quả, và tốt hơn là đưa ra ước tính chưa được điều chỉnh nhưng làm sạch như cách bạn có những so sánh này. Chúng tôi cũng đã công bố một số lỗi trong khoảng tin cậy chồng chéo. [2] Tôi thấy rằng thực tế là tôi cũng đo được huyết áp có liên quan gì đến nó. Điều quan trọng là nếu hai người này là những người quan trọng duy nhất trong số hàng trăm người chúng tôi đã thử nghiệm. Sau đó, có khả năng là sự khác biệt lớn hơn các thí nghiệm phản tác dụng dự kiến ​​khi chúng ta chỉ đo chiều cao và huyết áp, nhưng đã thực hiện hàng trăm thí nghiệm. Tuy nhiên, trong những trường hợp đó, không có sự điều chỉnh đơn giản nào có hiệu quả, và tốt hơn là đưa ra ước tính chưa được điều chỉnh nhưng làm sạch như cách bạn có những so sánh này. Chúng tôi cũng đã công bố một số lỗi trong khoảng tin cậy chồng chéo. [2] lớn hơn các thí nghiệm phản tác dụng dự kiến ​​trong đó chúng tôi chỉ đo chiều cao và huyết áp, nhưng đã thực hiện hàng trăm thí nghiệm. Tuy nhiên, trong những trường hợp đó, không có sự điều chỉnh đơn giản nào có hiệu quả, và tốt hơn là đưa ra ước tính chưa được điều chỉnh nhưng làm sạch như cách bạn có những so sánh này. Chúng tôi cũng đã công bố một số lỗi trong khoảng tin cậy chồng chéo. [2] lớn hơn các thí nghiệm phản tác dụng dự kiến ​​trong đó chúng tôi chỉ đo chiều cao và huyết áp, nhưng đã thực hiện hàng trăm thí nghiệm. Tuy nhiên, trong những trường hợp đó, không có sự điều chỉnh đơn giản nào có thể hoạt động, và tốt hơn là đưa ra ước tính chưa được điều chỉnh nhưng làm sạch như cách bạn có những so sánh này. Chúng tôi cũng đã công bố một số lỗi trong khoảng tin cậy chồng chéo. [2]

[1] Thống kê Campbell MJ và Swinscow TDV (2009) tại Square One. Oxford lần thứ 11; BMJ Sách Blackwell Xuất bản

[2] Julious SA, Campbell MJ, Walters SJ (2007) Dự đoán phương tiện trong tương lai sẽ nằm ở đâu dựa trên kết quả của thử nghiệm hiện tại. Các thử nghiệm lâm sàng đương đại, 28, 352-357.


1
Cảm ơn bạn cho câu trả lời kích thích suy nghĩ, Mike. Stewamini, Hochberg và Yekutieli dường như lập luận rằng các so sánh không phải là "không liên quan", nhưng trên thực tế đồng thời: "Bảo hiểm đồng thời cũng cần thiết khi một hành động được thực hiện dựa trên giá trị của tất cả các tham số. phương pháp điều trị trong một thử nghiệm lâm sàng có khả năng liên quan đến việc kiểm tra tất cả chúng, cho dù chúng có khác biệt đáng kể hay không. Đây là một tình huống rõ ràng khi cần bảo hiểm đồng thời. " (Bỏ qua vấn đề trình bày có chọn lọc chỉ một số TCTD.)
Alexis

Ngẫu nhiên, được đưa ra "Tôi không phải là một fan hâm mộ lớn của giá trị p, bởi vì tôi tin rằng ước tính các tham số là cách sử dụng thống kê tốt hơn so với các giả thuyết không bao giờ chính xác", bạn có thể thích Tại sao kiểm tra giả thuyết thường xuyên trở nên thiên vị khi từ chối giả thuyết null với các mẫu đủ lớn? . Chúc mừng.
Alexis

1
Mặc dù tôi đồng ý với bạn rằng khoảng tin cậy cho các tham số là vượt trội so với giá trị p đối với hầu hết các dạng suy luận, tôi không chắc rằng điều đó có nhất thiết ngụ ý rằng không cần hiệu chỉnh cho nhiều so sánh với các khoảng tin cậy hay không. Hầu hết các khoảng tin cậy được xác định bằng cách sử dụng alpha, để chỉ định phạm vi bảo hiểm. Ngay cả khi đã ly dị với khuôn khổ kiểm tra giả thuyết nghiêm ngặt, dường như tôi (ngây thơ, không bận tâm đến việc mô phỏng để kiểm tra) rằng nó có thể gây hiểu lầm khi gắn kết giáo điều với phạm vi bảo hiểm danh nghĩa (ví dụ 95%, vì vậy alpha = 0,05) khi so sánh nhiều có tính liên quan.
Ryan Simmons

2
Mike Campbell nói rằng "khoảng tin cậy, theo định nghĩa thường xuyên, không liên quan đến các giả thuyết và vì vậy không cần điều chỉnh cho các so sánh khác, có khả năng không liên quan." Đó là một tuyên bố kỳ lạ. Mặc dù các TCTD có thể không phản ánh "kiểm tra giả thuyết" mỗi lần, nhưng họ phản ánh các kiểm tra thống kê có tỷ lệ lỗi nhất định (ví dụ 0,05) và tỷ lệ lỗi đó bị thổi phồng khi số lượng kiểm tra tăng - chính xác là cùng một phép toán cơ bản nguyên tắc áp dụng cho các bài kiểm tra giả thuyết null. Người ta không thoát khỏi vấn đề so sánh bằng cách tập trung vào các TCTD thay vì giá trị p.
Bonferroni
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.