Nguyên nhân của vấn đề so sánh nhiều là gì?


9

Tôi hiểu trực giác đằng sau MCP nhưng tôi gặp khó khăn trong việc xác định chính xác nguyên nhân, điều gì nên tránh hoặc ít nhất là chiếm.

Theo định nghĩa thẳng thắn nhất của nó, tôi đồng ý rằng nếu tôi lấy bất kỳ dữ liệu nào và áp dụng cách tiếp cận vũ phu để thử mọi giả thuyết khống có thể, cuối cùng tôi sẽ tìm thấy một dữ liệu có thể bị từ chối với alfa tùy ý (ví dụ: 5%) và tuyên bố một khám phá.

Nhưng trong nhiều định nghĩa về MCP, tôi đã đọc một cái gì đó như "bạn càng kiểm tra nhiều thì bạn càng có khả năng tìm thấy" và mặc dù tôi đồng ý, tôi không nhất thiết phải xem đó là một vấn đề (hoặc ít nhất là gốc rễ của vấn đề). Ví dụ, nếu nhiều nhà nghiên cứu đang phân tích cùng một hiện tượng với cùng một dữ liệu có sẵn, thì mỗi người thử nghiệm giả thuyết của riêng mình, nhiều khả năng người ta sẽ tìm thấy một khám phá (hơn là chỉ là một nhà nghiên cứu), điều đó có nghĩa là họ nên áp dụng một số loại hiệu chỉnh đối với alfa mục tiêu của họ (ví dụ: hiệu chỉnh Bonferroni )? Tôi cho rằng câu trả lời là không, nhưng sau đó không hiểu tại sao một nhà nghiên cứu duy nhất nên thử nghiệm nhiều giả thuyết (một lần nữa, đồng ý rằng hệ thống thử nghiệm có thể bị lạm dụng và cần phải điều chỉnh cho điều đó).

Khi nào cơ hội gia tăng này để tìm ra một khám phá (từ chối một giả thuyết khống) trở thành một vấn đề? Khi suy nghĩ về nguyên nhân, có một số yếu tố xuất hiện trong đầu, nhưng tôi không chắc một trong số chúng (hoặc những yếu tố khác không được liệt kê ở đây) có liên quan nhiều hơn đến nguyên nhân của vấn đề này:

  1. Phân tích bài hoc : Tôi hiểu rằng các giả thuyết nên (tốt nhất) được hình thành một tiên nghiệm, nếu không, tôi chỉ nhìn vào dữ liệu cố gắng đoán xem giả thuyết nào tôi có thể phù hợp với alfa mong muốn.

  2. Sử dụng lại dữ liệu: Vấn đề đã biến mất nếu tôi sử dụng các bộ dữ liệu khác nhau cho mỗi giả thuyết tôi kiểm tra? Cơ hội tìm thấy một khám phá vẫn sẽ tăng thêm nhiều giả thuyết mà tôi kiểm tra (ngay cả trên các tập dữ liệu khác nhau).

  3. Các nhà nghiên cứu độc lập: sử dụng lại ví dụ trước, MCP có liên quan đến cùng một nhóm nghiên cứu / nỗ lực không? Hoặc nó áp dụng cho nhiều nhà nghiên cứu độc lập làm việc trên cùng một vấn đề (hoặc thậm chí trên cùng một dữ liệu hoặc tương tự)?

  4. Các giả thuyết độc lập: liên quan đến vấn đề trước đó, liệu vấn đề có phát sinh (hoặc được biểu hiện mạnh mẽ hơn) khi các giả thuyết này độc lập? (vì tôi chiếm nhiều không gian tìm kiếm hơn) hoặc vấn đề chính là thử các giả thuyết tương tự với các biến thể nhỏ (ví dụ: tinh chỉnh một tham số)?

Tôi có thể tóm tắt các điểm ở trên, theo cách giải thích của tôi, vì (1) và (2) là các hình thức giảm không gian tìm kiếm (thuật ngữ mượn từ lý thuyết tối ưu hóa) trong đó tôi dễ dàng tìm thấy khám phá hơn; và (3) và (4) khi sử dụng các phương pháp tìm kiếm trực giao hơn bao trùm nhiều không gian tìm kiếm này mỗi khi chúng được áp dụng (nghĩa là mỗi khi một giả thuyết được kiểm tra). Nhưng đây chỉ là một số nguyên nhân có thể tôi có thể đưa ra, để giúp bắt đầu câu trả lời, tôi còn thiếu nhiều điều nữa.

Câu hỏi này phần nào được theo dõi từ câu hỏi trước đó hỏi tại sao nhiều vấn đề so sánh lại , đưa ra một vấn đề tương tự như sự khác biệt giữa FWERFDR (nếu tôi hiểu chính xác câu hỏi). Trong câu hỏi này tôi không coi đó là một vấn đề (mặc dù tôi sẽ thiên về sử dụng FDR hơn), cả hai tỷ lệ đều ngụ ý rằng có một vấn đề khi phân tích nhiều hơn một giả thuyết (nhưng tôi không thấy sự khác biệt so với trường hợp khi Tôi phân tích các vấn đề không liên quan khác nhau, tìm ra một khám phá cho mỗi vấn đề với mức ý nghĩa 5%, điều đó có nghĩa là khi tôi "giải quyết" 100 vấn đề bác bỏ các giả thuyết khống, 5 trong số đó - có thể là sai - có thể sai). Các câu trả lời tốt nhất cho câu hỏi đó ngụ ý rằng không có câu trả lời chắc chắn cho câu hỏi đó và có lẽ cũng không có câu hỏi nào cho câu hỏi này, nhưng nó vẫn rất hữu ích (ít nhất là với tôi) để làm sáng tỏ càng nhiều càng tốt nguyên nhân gây ra lỗi MCP đến từ.

( Một câu trả lời khác cho cùng một câu hỏi gợi ý một bài viết giải thích lợi ích của phối cảnh mô hình đa cấp Bayes so với phối cảnh cổ điển. Đây là một cách tiếp cận thú vị khác đáng để nghiên cứu nhưng phạm vi của câu hỏi này là khung cổ điển.)

Đã có một số câu hỏi về vấn đề này, nhiều câu hỏi đáng đọc (ví dụ: 1 , 2 , 3 , 4 ) giải quyết (từ các quan điểm khác nhau) các vấn đề nêu trên, nhưng tôi vẫn cảm thấy một câu trả lời thống nhất hơn (nếu điều đó thậm chí có thể) thiếu, do đó, câu hỏi này, mà tôi hy vọng không làm giảm SNR (đã có vấn đề) .


"Bạn càng kiểm tra nhiều thì bạn càng có khả năng tìm thấy" chỉ do tình cờ . FTFY . :) Đó là, "chỉ do cơ hội" chứ không phải "do một hiệp hội thực sự."
Alexis

Tôi đồng ý, nó không chỉ áp dụng cho bạn mà còn cho những người khác kết hợp. Tuy nhiên, bạn không nên để điều đó làm bạn ngừng thực hiện phân tích dữ liệu khám phá mà sau đó có thể được theo dõi chặt chẽ và riêng lẻ với các dữ liệu khác thu được một cách độc lập.
Robert Jones

Xem ncbi.nlm.nih.gov/pmc/articles/PMC3659368 để biết một ví dụ nổi tiếng, quan trọng, đầy kịch tính.
whuber

Điều tôi lưu ý là một số trường hợp của từ "khám phá" trong câu hỏi. Nếu bạn đọc lại câu hỏi thay thế từng "khám phá" bằng "phát hiện sai", nó có thể giúp bạn hiểu rõ hơn bản chất của vấn đề.
Russ Lenth

Dường như được cung cấp một tập dữ liệu, tập dữ liệu càng nhỏ và càng có nhiều nhà nghiên cứu đang làm việc với nó, thì càng có nhiều khả năng một số tương quan giả sẽ được tìm thấy trong tập dữ liệu do tình cờ. Nó trở nên giống với một nhóm lớn những người đang cố gắng "tìm" số trúng vé số. Một giả thuyết được tìm thấy trên một tập dữ liệu cần phải được xác minh độc lập trên tập dữ liệu khác để giảm khả năng phát hiện đó là sai; nhưng nó phụ thuộc vào kích thước của tập dữ liệu, có bao nhiêu nghiên cứu đang làm việc với nó và bạn có thể tin tưởng bao nhiêu vào quy trình vệ sinh dữ liệu của họ.
rinspy

Câu trả lời:


2

Trực giác của bạn là gần đúng, nhưng nó có thể giúp xem xét làm thế nào nhiều so sánh làm suy yếu các giả định của chính thử nghiệm giả thuyết. Khi bạn tiến hành kiểm tra giả thuyết cổ điển, bạn đang tạo ra giá trị p, đây là thước đo bằng chứng chống lại giả thuyết khống. Giá trị p được xây dựng theo cách mà các giá trị thấp hơn tạo thành bằng chứng lớn hơn chống lại null và nó được phân phối thống nhất theo giả thuyết null . Đây là những gì cho phép bạn coi giả thuyết null là không hợp lý đối với các giá trị p thấp (liên quan đến mức ý nghĩa).

Giả sử bạn quyết định kiểm tra giả thuyết mà không thực hiện bất kỳ điều chỉnh nào đối với phương pháp thử nghiệm của mình để tính toán cho nhiều so sánh. Mỗi giá trị p cho các thử nghiệm này là một biến ngẫu nhiên đồng nhất theo giả thuyết null cho thử nghiệm đó. Vì vậy, nếu không có giả thuyết thay thế nào trong các thử nghiệm này là đúng (nghĩa là tất cả các giả thuyết null đều đúng), bạn có (các giá trị này thường không độc lập ). Giả sử bạn chọn mức ý nghĩa và bạn kiểm tra tất cả các giả thuyết này so với mức đó. Để làm điều này, bạn nhìn vào các giá trị p được đặt hàng và quan sát rằng bạn có đối với một sốN>1p1,...,pNU(0,1)0<α<1p(1)<...<p(k)<α<p(k+1)...<p(N)k0kN. Điều này cho bạn biết rằng đối với các thử nghiệm đầu tiên (tương ứng với các giá trị p được đặt hàng), bạn nên từ chối giả thuyết null cho mỗi thử nghiệm đó.k

vấn đề ở đây là gì? Vâng, vấn đề là mặc dù các giá trị p của từng thử nghiệm là đồng nhất theo các giả thuyết null tương ứng của chúng, các giá trị p được đặt hàng không đồng nhất. Bằng cách chọn ra các giá trị p thấp nhất nằm dưới mức ý nghĩa, bạn không còn nhìn vào các biến ngẫu nhiên đồng nhất theo các giả thuyết null tương ứng của chúng. Trên thực tế, đối với lớn , các giá trị p thấp nhất có thể có phân phối tập trung nhiều ở gần 0 và do đó, các giá trị này rất có thể nằm dưới mức ý nghĩa của bạn, mặc dù (theo giả định) tất cả các giả thuyết null cho bạn xét nghiệm là đúng.NkN

Hiện tượng này xảy ra bất kể giá trị p có độc lập hay không, và do đó xảy ra bất kể bạn sử dụng cùng một dữ liệu hoặc dữ liệu khác nhau để kiểm tra các giả thuyết này. Vấn đề của nhiều so sánh là các giá trị p thấp hơn của các phép thử sẽ có các phân phối null biên không đồng nhất . Các điều chỉnh như cố gắng hiệu chỉnh Bonferroni để đối phó với điều này bằng cách điều chỉnh giá trị p hoặc mức ý nghĩa để tạo ra sự so sánh giải thích cho hiện tượng này.N


Vì vậy, nếu chúng ta lấy ví dụ được đưa ra trong OP của một nhà nghiên cứu thực hiện nhiều thử nghiệm trên một tập dữ liệu so với nhiều nhà nghiên cứu riêng lẻ thực hiện một thử nghiệm trên cùng một tập dữ liệu sao cho tập hợp các giá trị p cho trước đó giống như kết hợp của các giá trị p riêng cho cái sau, thì sao? Giá trị p tương tự cho một trong các thử nghiệm có ý nghĩa trong trường hợp sau, nhưng không đáng kể sau khi điều chỉnh MCP trước đây? Vì vậy, khi làm nhiều bài kiểm tra, tốt hơn là viết một bài báo hợp tác liên quan đến nhiều nhà nghiên cứu như có các bài kiểm tra theo kế hoạch? :)
Bối rối

Bất kể bạn viết một bài báo về 10 bài kiểm tra hay mười bài viết về 1 bài kiểm tra, vấn đề là như nhau --- khi bạn xem xét nhiều so sánh và chọn các bài kiểm tra có giá trị p thấp, sau đó có điều kiện lựa chọn p- các giá trị không còn đồng nhất. Nếu mười nhà nghiên cứu viết mười bài báo cáo riêng lẻ báo cáo kết quả thử nghiệm riêng lẻ và bạn rút ra một bài có giá trị p thấp nhất (ví dụ: để trình bày), vì nó có giá trị p thấp nhất , thì điều kiện đó là giá trị p không còn thống nhất.
Ben - Tái lập Monica

Xin lỗi, nhưng tôi vẫn không chắc chắn tôi làm theo lập luận. Giả sử, cùng một bộ dữ liệu được thử nghiệm khi được tạo từ 10 bản phân phối khác nhau. Và nói rằng trong 3 thử nghiệm này, giá trị p nằm dưới ngưỡng alpha. Vì vậy, khi các thử nghiệm này được thực hiện riêng biệt bởi các nhà nghiên cứu riêng lẻ, so với các thử nghiệm đối với 3 phân phối này có thể từ chối vô hiệu hóa dữ liệu đến từ phân phối cụ thể mà anh ta đã thử nghiệm, nhưng nếu một nhà nghiên cứu thực hiện các thử nghiệm thì anh ta không thể từ chối 3 Giả thuyết không?
Bị bối rối

Cũng có thể là mỗi nhà nghiên cứu riêng lẻ (không có kiến ​​thức về các thử nghiệm khác) thực hiện một thử nghiệm giả thuyết mà không có bất kỳ sự điều chỉnh nào, chống lại mức ý nghĩa tiêu chuẩn. Tuy nhiên, nếu một người đi cùng và đọc tất cả các giấy tờ đó thì họ cần phải tính đến bằng chứng tổng hợp từ tất cả chúng. Điều đó có nghĩa là nếu họ chọn tờ giấy có giá trị p thấp nhất, họ không nên đánh giá giá trị p đó một cách tách biệt với những người khác. Làm như vậy sẽ thiên vị họ theo hướng chấp nhận một giả thuyết thay thế sai.
Ben - Tái lập Monica

(Đây thực sự là một phần của vấn đề thống kê rộng hơn: Nếu đối tượng suy luận mà bạn sử dụng bị ảnh hưởng bởi dữ liệu của bạn, thì việc sử dụng đúng đối tượng suy luận đó sẽ tính đến sự phụ thuộc của nó vào dữ liệu.)
Ben - Rebstate Monica

1

Bạn dường như cho rằng một nhà nghiên cứu có thể biết khi nào một khám phá được thực hiện. Đó không phải là trường hợp. Ngay cả khi bạn "tìm thấy một khám phá", bạn không bao giờ có thể chắc chắn rằng mình đã làm như vậy (trừ khi bạn là một loại người toàn tri), bởi vì, khi nghe có vẻ như, điều gì phân biệt báo động sai từ một khám phá trong khoa học thường là một số mức độ "tự tin" của con người trong phân tích.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.