Có phải nhiều so sánh điều chỉnh cần thiết cho nhiều so sánh không chính thức / trực quan không?


9

Tôi có một loại câu hỏi triết học về việc khi nào cần hiệu chỉnh nhiều so sánh.

Tôi đang đo tín hiệu thay đổi thời gian liên tục (tại các điểm thời gian riêng biệt). Thỉnh thoảng các sự kiện riêng biệt diễn ra và tôi muốn thiết lập nếu những sự kiện này có ảnh hưởng đáng kể đến tín hiệu đo được.

Vì vậy, tôi có thể lấy tín hiệu trung bình theo sau một sự kiện và thông thường tôi có thể thấy một số hiệu ứng ở đó với một đỉnh nhất định. Nếu tôi chọn thời điểm đạt cực đại đó và thực hiện kiểm tra t để xác định xem nó có đáng kể so với khi sự kiện không xảy ra không, tôi có cần thực hiện nhiều hiệu chỉnh so sánh không?

Mặc dù tôi chỉ thực hiện một thử nghiệm t (tính 1 giá trị), nhưng trong lần kiểm tra trực quan ban đầu của tôi, tôi đã chọn cho một thử nghiệm có hiệu ứng tiềm năng lớn nhất từ ​​15 điểm thời gian trì hoãn bài khác nhau mà tôi đã vẽ. Vậy tôi có cần thực hiện nhiều hiệu chỉnh so sánh cho 15 bài kiểm tra mà tôi chưa bao giờ thực hiện không?

Nếu tôi không sử dụng kiểm tra trực quan, nhưng chỉ thực hiện kiểm tra ở mỗi độ trễ của sự kiện và chọn mức cao nhất, tôi chắc chắn sẽ cần phải sửa. Tôi chỉ hơi bối rối không biết mình có cần hay không nếu lựa chọn 'độ trễ tốt nhất' được thực hiện bởi một số tiêu chí khác so với bản thân thử nghiệm (ví dụ: lựa chọn trực quan, trung bình cao nhất, v.v.)

Câu trả lời:


11

Về mặt kỹ thuật, khi bạn thực hiện một thử nghiệm trực quan về nơi thực hiện bài kiểm tra, bạn nên sửa cho điều đó: mắt và não của bạn đã bỏ qua một số điều không chắc chắn trong dữ liệu, mà bạn không tính đến nếu bạn chỉ làm bài kiểm tra vào thời điểm đó .

Hãy tưởng tượng rằng 'đỉnh' của bạn thực sự là một cao nguyên và bạn tự tay chọn chênh lệch 'đỉnh', sau đó chạy thử nghiệm và điều đó hóa ra hầu như không đáng kể. Nếu bạn chạy thử nghiệm nhiều hơn một chút về bên trái hoặc bên phải, kết quả có thể thay đổi. Theo cách này, bạn phải tính đến quá trình chọn lọc trước: bạn không hoàn toàn chắc chắn rằng bạn nêu rõ! Bạn đang sử dụng dữ liệu để thực hiện lựa chọn, vì vậy bạn đang sử dụng hiệu quả cùng một thông tin hai lần.

Tất nhiên, trong thực tế, rất khó để tính đến một cái gì đó giống như quy trình lựa chọn, nhưng điều đó không có nghĩa là bạn không nên (hoặc ít nhất là lấy / nêu kết quả khoảng tin cậy / kết quả kiểm tra với một hạt muối).

Kết luận : bạn phải luôn luôn sửa cho nhiều phép so sánh nếu bạn thực hiện nhiều phép so sánh, bất kể bạn đã chọn những phép so sánh đó như thế nào. Nếu họ không được chọn trước khi xem dữ liệu, bạn cũng nên sửa nó.

Lưu ý: một cách khác để sửa lỗi cho sự chọn lọc thủ công (ví dụ khi thực tế là không thể) có lẽ là để nêu kết quả của bạn để chúng rõ ràng có chứa tham chiếu đến lựa chọn thủ công. Nhưng đó không phải là 'nghiên cứu có thể tái tạo', tôi đoán vậy.


1
Luôn luôn thực hiện các sửa chữa, làm tăng tỷ lệ lỗi loại II của bạn. Nếu bạn có tất cả các kết quả quan trọng trước khi điều chỉnh, bạn có thể mất tất cả sau khi điều chỉnh, không tính tỷ lệ thấp để có được tất cả các kết quả quan trọng. Điều này có thể phụ thuộc vào chi phí của lỗi loại I hoặc loại II trong ngữ cảnh của bạn.
Etienne Low-Décarie

Nick đã đưa ra câu trả lời tôi muốn đưa ra nếu tôi là người đầu tiên trả lời. Tuy nhiên, trong thiết lập ban đầu, bạn (mkpitas) đã nói rằng nếu bạn thực sự thực hiện 15 bài kiểm tra, bạn sẽ không phải thực hiện chỉnh sửa bội số. Tôi không thấy lý do tại sao bạn sẽ nói điều đó. Tôi nghĩ rằng trong trường hợp đó, nhu cầu chỉnh sửa bội số trở nên rõ ràng hơn. @etienne quan điểm của bạn áp dụng cho sửa lỗi FWER rất nghiêm ngặt trong việc kiểm soát lỗi loại I. Nếu bạn sử dụng FDR, bạn sẽ không hy sinh nhiều sức mạnh.
Michael R. Chernick

8

Cách đây rất lâu, trong một trong những lớp thống kê đầu tiên của tôi, tôi đã đọc về điều này trong một văn bản (tôi nghĩ đó là một ấn bản cũ của cuốn sách về sự hồi sinh của Cohen) trong đó có câu "đây là câu hỏi về những người hợp lý có thể khác nhau".

Tôi không rõ ràng rằng bất cứ ai cũng cần phải sửa cho nhiều so sánh, cũng như, nếu họ làm, trong khoảng thời gian hoặc tập hợp so sánh nào họ nên sửa. Mỗi bài viết? Mỗi hồi quy hay ANOVA? Tất cả mọi thứ họ xuất bản về một chủ đề? Những gì người khác xuất bản?

Khi bạn viết trong dòng đầu tiên của bạn, đó là triết lý.


4
Bạn đúng rằng có một câu hỏi về bao nhiêu so sánh đang được thực hiện, nhưng tôi không nghĩ rằng nó ngụ ý kết luận của bạn. Những người hợp lý có thể khác nhau bởi vì họ có các mục tiêu khác nhau và định giá khác nhau (chức năng mất) cho các kết quả có thể xảy ra. Nếu bạn nên sửa chữa cho nhiều so sánh, điều này là do nó dẫn đến mất mát dự kiến ​​tốt hơn. Như vậy, đây là một vấn đề thực tế, không chỉ là "triết lý", và có nhiều cách hợp lý để giải quyết vấn đề mà những người hợp lý có thể đồng ý.
whuber

2
@whuber bạn chắc chắn đúng trong một số tình huống. Đôi khi có một chức năng mất hợp lý, mặc dù thường rất khó để có được một tuyên bố rõ ràng. Nhưng những lần khác, ví dụ như trong công việc thăm dò, tôi gặp khó khăn khi xem bất kỳ chức năng mất nào là có thể. Tất nhiên, toàn bộ ý tưởng hàm mất mát giúp chúng ta thoát khỏi tầm vóc giống như p = 0,05, và giả định điển hình rằng power = .8 hoặc .9 là đủ tốt, và theo tôi (ý nghĩ của tôi) ý tưởng hợp lý hơn chúng tôi thiết lập những điều này trên cơ sở thực chất hơn.
Peter Flom

1
Cảm ơn bạn đã làm rõ phạm vi và tinh thần trả lời của bạn, Peter.
whuber

4
Tôi tức giận khi mọi người nói rằng kiểm tra bội số không thành vấn đề. Tôi thấy thái độ này thể hiện tất cả quá thường xuyên trong nghiên cứu y tế. Bạn có thể chỉ ra nhiều giấy tờ đạt được kết luận không chính xác vì tính đa bội đã bị bỏ qua. Điều quan trọng là không công bố các bài báo có kết luận sai trong y học vì nó ảnh hưởng đến cách bệnh nhân được điều trị và cuộc sống bị đe dọa. Đa số đóng góp cho xu hướng xuất bản (bởi vì khi một vấn đề được nghiên cứu nhiều lần, chỉ những nghiên cứu có kết quả quan trọng mới được công bố), đó là một vấn đề nghiêm trọng trong phân tích tổng hợp,
Michael R. Chernick

1
@MichaelCécick, tôi đồng ý - sẽ rất có vấn đề khi mọi người bỏ qua nhiều lần sửa lỗi thử nghiệm. Tuy nhiên, tôi nghĩ Peter đưa ra một điểm tốt - phạm vi của nhiều thử nghiệm phải là gì? Tất cả các bài kiểm tra được thực hiện trong một bài báo? Tất cả các thử nghiệm được thực hiện với một tập dữ liệu? Tất cả các xét nghiệm được thực hiện kể từ đầu thời gian? Dường như không có câu trả lời đúng.
Macro

4

Nếu bạn đang cố gắng đưa ra quyết định một lần về thực tế và muốn kiểm soát tốc độ bạn từ chối giả thuyết khống, thì bạn sẽ sử dụng thử nghiệm ý nghĩa giả thuyết null (NHST) và sẽ muốn sử dụng hiệu chỉnh cho nhiều so sánh. Tuy nhiên, như Peter Flom lưu ý trong câu trả lời của mình, không rõ cách xác định tập hợp các phép so sánh để áp dụng hiệu chỉnh. Sự lựa chọn dễ dàng nhất là tập hợp các so sánh được áp dụng cho một tập dữ liệu nhất định và đây là cách tiếp cận phổ biến nhất.

Tuy nhiên, khoa học được cho là tốt nhất được coi là hệ thống tích lũy trong đó các quyết định một lần là không cần thiết và trên thực tế chỉ phục vụ để giảm hiệu quả tích lũy bằng chứng (giảm bằng chứng thu được đến một chút thông tin). Do đó, nếu theo một cách tiếp cận khoa học đúng đắn để phân tích thống kê, tránh NHST cho các công cụ như tỷ lệ khả năng (cũng có thể là phương pháp Bayes), thì "vấn đề" của nhiều so sánh sẽ biến mất.


1

Một cách khác để điều chỉnh, tùy thuộc vào câu hỏi của bạn, là kiểm tra mức độ quan trọng của tổng giá trị p. Sau đó, bạn thậm chí có thể tự phạt mình vì thử nghiệm không được thực hiện bằng cách thêm giá trị p cao.

Có thể sử dụng tiện ích mở rộng (không yêu cầu độc lập) phương pháp của Fisher (yêu cầu độc lập thử nghiệm).

Ví dụ. Phương pháp của


Đây là những ví dụ về các quy trình được sử dụng trong phân tích tổng hợp khi các nghiên cứu riêng lẻ chỉ cung cấp giá trị p hoặc dữ liệu không thể được kết hợp nhưng mỗi nghiên cứu có giá trị p được tính. Ngoài ra phương pháp kết hợp của Fisher và bình thường nghịch đảo là những cách để xây dựng quy tắc dừng trong các thiết kế thích ứng.
Michael R. Chernick

1

Một điều rất quan trọng cần nhớ là nhiều hiệu chỉnh thử nghiệm giả định các thử nghiệm độc lập. Nếu dữ liệu phân tích của bạn không độc lập, mọi thứ sẽ phức tạp hơn một chút so với việc sửa lỗi cho số lượng thử nghiệm được thực hiện, bạn phải tính đến mối tương quan giữa dữ liệu được phân tích hoặc việc sửa lỗi của bạn có thể sẽ quá bảo thủ và bạn sẽ có tỷ lệ lỗi loại II cao. Tôi đã tìm thấy xác thực chéo, kiểm tra hoán vị hoặc bootstrapping có thể là những cách hiệu quả để đối phó với nhiều so sánh nếu được sử dụng đúng cách. Những người khác đã đề cập đến việc sử dụng FDR, nhưng điều này có thể cho kết quả không chính xác nếu có nhiều sự không độc lập trong dữ liệu của bạn vì nó giả sử giá trị p là thống nhất trong tất cả các thử nghiệm dưới giá trị null.


2
p
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.