Tại sao không sửa chữa nhiều giả thuyết được áp dụng cho tất cả các thí nghiệm kể từ buổi bình minh của thời gian?


24

Chúng tôi biết rằng chúng tôi phải áp dụng các hiệu chỉnh giống như Stewamini Hochberg cho thử nghiệm nhiều giả thuyết cho các thử nghiệm dựa trên một bộ dữ liệu duy nhất, để kiểm soát tỷ lệ phát hiện sai, nếu không tất cả các thử nghiệm cho kết quả dương tính đều có thể sai.

Nhưng tại sao chúng ta không áp dụng nguyên tắc tương tự này cho tất cả các thử nghiệm kể từ đầu thời gian, bất kể dữ liệu đến từ đâu?

Rốt cuộc, hơn một nửa kết quả khoa học được công bố được coi là "đáng kể" hiện được biết là sai và không thể sản xuất được, và không có lý do gì mà điều này không thể dễ dàng như vậy 100%. Vì các nhà khoa học chỉ có xu hướng công bố kết quả tích cực, chúng tôi không biết số lượng kết quả âm tính, vì vậy chúng tôi không biết liệu những gì chúng tôi công bố chỉ là dương tính giả - kết quả tích cực đã bị cắt xén bởi cơ hội ngẫu nhiên thuần túy theo giả thuyết null. Trong khi đó, không có gì để nói rằng các phép toán đằng sau nhiều hiệu chỉnh kiểm tra giả thuyết chỉ nên áp dụng cho các kết quả từ cùng một tập dữ liệu và không áp dụng cho tất cả các dữ liệu thử nghiệm thu được theo thời gian.

Dường như toàn bộ khoa học đã trở thành một cuộc thám hiểm câu cá lớn dựa trên các giả thuyết sai hoặc yếu, vậy làm thế nào chúng ta có thể kiểm soát điều này?

Làm thế nào chúng ta có thể kiểm soát tỷ lệ phát hiện sai, nếu tất cả những gì chúng ta từng công bố là kết quả độc lập được thực hiện mà không áp dụng bất kỳ sự điều chỉnh nào cho nhiều thử nghiệm giả thuyết đối với tất cả các thử nghiệm được thực hiện cho đến nay?

thể kiểm soát tỷ lệ phát hiện sai mà không áp dụng một số điều chỉnh như vậy?


2
Câu hỏi của riêng bạn meta.stats.stackexchange.com/questions/3049/ áp dụng. Điều này gói một số tuyên bố gây tranh cãi (trong một số trường hợp rất phóng đại) với một số câu hỏi lớn. Tôi nghĩ rằng điều này đi ngược lại sự đồng thuận của lời khuyên đã được đưa ra cho bạn.
Nick Cox

3
Xin lỗi, tôi không biết những phản hồi mà bạn đang đề cập đến: Tôi không thấy tài liệu tham khảo nào ở đây. Tôi không bỏ phiếu để đóng, tôi cũng không có bất kỳ mong muốn hay quyền lực nào để ngăn mọi người trả lời. Nhưng, ví dụ, "kể từ buổi bình minh của thời gian" là một ví dụ nhỏ về sự phóng đại vô nghĩa và có một vài bài khác trong bài viết của bạn. Theo kinh nghiệm của tôi về trang web này, việc khiêu khích vì lợi ích của chính nó sẽ không giúp ích cho câu hỏi tiềm ẩn của bạn. Độc giả phải lột bỏ phong cách ra khỏi chất.
Nick Cox

3
Cảm ơn lời mời, nhưng cuộc sống rất ngắn. Tôi sẽ để tham chiếu chéo của tôi đến chủ đề meta là điểm chính của tôi. Tôi đã nêu ý kiến ​​của tôi về phong cách và chất, có thể đứng hoặc giảm giá trị của nó ở đây.
Nick Cox

9
Nếu tôi đang làm khoa học, tôi không quan tâm nhiều đến những khám phá sai lầm mà bạn đã thực hiện. Thật vậy, liên quan đến việc đưa ra một tuyên bố khoa học cụ thể, tôi có thể không quan tâm nhiều đến những khám phá sai lầm khác mà tôi đã thực hiện. Nếu tôi không làm khoa học, tôi thậm chí có thể không quan tâm đến những khám phá sai lầm khác mà tôi đã thực hiện trong phân tích cụ thể này - bởi vì nếu tôi chọn tỷ lệ lỗi loại I của tôi dựa trên chi phí tương đối của hai loại lỗi, tôi đã đã chọn sự đánh đổi giữa hai người và không nên sửa cho nhiều so sánh.
Glen_b -Reinstate Monica

2
May mắn thay, những người khác đã trình bày quan điểm tương tự như tôi với sự đồng điệu và rõ ràng. Là một bình luận thêm, tôi khuyên chống lại khoa học kết hợp (bất cứ thứ gì có giá trị lâu dài) với tài liệu của nó. Có nhiều cách mà văn học thất vọng: mơ hồ, tầm thường, lỗi logic, v.v ... Trong bản tóm tắt, mọi người đều không tin vào suy nghĩ của tất cả những thử nghiệm dương tính giả được công bố, nhưng chúng phải được tin tưởng và hành động để có hiệu quả lâu dài. (Nếu đó là một thử nghiệm ma túy, đó có thể là một vấn đề lớn.) Vì vậy, có nhiều điều phải lo lắng, nhưng tôi không nghĩ rằng khoa học sẽ bị tiêu diệt.
Nick Cox

Câu trả lời:


20

Đây rõ ràng sẽ là một cơn ác mộng tuyệt đối phải làm trong thực tế, nhưng giả sử nó có thể được thực hiện: chúng tôi chỉ định một Quốc vương thống kê và mọi người đang chạy thử nghiệm giả thuyết báo cáo giá trị thô của họ đối với người tuyệt vọng này. Ông thực hiện một số loại toàn cầu (theo nghĩa đen) nhiều so sánh hiệu chỉnh và trả lời với các phiên bản đã sửa.p

Điều này sẽ mở ra một kỷ nguyên vàng của khoa học và lý trí? Không, có lẽ là không.


Hãy bắt đầu bằng cách xem xét một cặp giả thuyết, như trong một t
H0: Các nhóm có cùng một ý nghĩa.HMột: Các nhóm có phương tiện khác nhau.
H0H0Giả thuyết theo một nghĩa nào đó là "nhàm chán", và các nhà nghiên cứu thường quan tâm đến việc tránh tình huống "dương tính giả" trong đó họ tuyên bố đã tìm thấy sự khác biệt giữa các nhóm không thực sự tồn tại. Do đó, chúng tôi chỉ gọi kết quả là "có ý nghĩa" nếu chúng dường như không thể xảy ra theo giả thuyết khống, và theo quy ước, ngưỡng không phù hợp đó được đặt ở mức 5%.

H0

Nhiều cách tiếp cận sửa chữa khác nhau nhằm giúp bạn lấy lại tỷ lệ lỗi danh nghĩa mà bạn đã chọn để chịu đựng cho các thử nghiệm riêng lẻ. Họ làm như vậy theo những cách hơi khác nhau. Các phương pháp kiểm soát Tỷ lệ lỗi khôn ngoan của gia đình , như các thủ tục Bonferroni , SidakHolm , nói rằng "Bạn muốn có 5% cơ hội mắc lỗi trong một bài kiểm tra, vì vậy chúng tôi sẽ đảm bảo rằng bạn không quá 5 % cơ hội mắc bất kỳ lỗi nào trong tất cả các bài kiểm tra của bạn. " Các phương pháp kiểm soát Tỷ lệ Khám phá Saithay vì nói "Bạn rõ ràng ổn với việc sai đến 5% thời gian với một bài kiểm tra, vì vậy chúng tôi sẽ đảm bảo rằng không quá 5% 'cuộc gọi' của bạn sai khi thực hiện nhiều bài kiểm tra". (Thấy sự khác biệt?)


Bây giờ, giả sử bạn đã cố gắng kiểm soát tỷ lệ lỗi thông minh của gia đình là tất cả các bài kiểm tra giả thuyết từng chạy. Về cơ bản, bạn đang nói rằng bạn muốn có <5% cơ hội từ chối bất kỳ giả thuyết khống nào, chưa từng có. Điều này thiết lập một ngưỡng nghiêm ngặt và suy luận nghiêm ngặt sẽ vô dụng nhưng có một vấn đề thậm chí còn cấp bách hơn: sự điều chỉnh toàn cầu của bạn có nghĩa là bạn đang kiểm tra các "giả thuyết ghép" hoàn toàn vô nghĩa như

H1:Drug XYZ changes T-cell count Grapes grow better in some fields Men and women eat different amounts of ice cream

Với các hiệu chỉnh sai của Discovery Discovery, vấn đề số không quá nghiêm trọng, nhưng nó vẫn là một mớ hỗn độn về mặt triết học. Thay vào đó, sẽ hợp lý khi xác định một "họ" các xét nghiệm liên quan, như danh sách các gen ứng cử viên trong nghiên cứu genom, hoặc một bộ các thùng tần số thời gian trong quá trình phân tích quang phổ. Điều chỉnh gia đình của bạn theo một câu hỏi cụ thể cho phép bạn thực sự diễn giải lỗi Loại I của mình bị ràng buộc theo cách trực tiếp. Ví dụ: bạn có thể xem tập hợp các giá trị p đã được hiệu chỉnh FWER từ dữ liệu gen của chính bạn và nói "Có <5% khả năng rằng bất kỳ gen nào trong số này là dương tính giả". Điều này tốt hơn rất nhiều so với một sự đảm bảo mơ hồ bao gồm các suy luận được thực hiện bởi những người bạn không quan tâm về các chủ đề bạn không quan tâm.

Mặt trái của vấn đề này là việc anh ấy lựa chọn "gia đình" thích hợp là điều gây tranh cãi và hơi chủ quan (Có phải tất cả các gen là một gia đình hay tôi chỉ có thể xem xét các kinase?) Nhưng vấn đề của bạn nên được thông báo và tôi không tin bất cứ ai đã nghiêm túc ủng hộ việc xác định các gia đình gần như rất rộng rãi.


Bayes thì sao?

Phân tích Bayes cung cấp giải pháp thay thế mạch lạc cho vấn đề này - nếu bạn sẵn sàng di chuyển một chút khỏi khung lỗi Loại I / Loại II thường xuyên. Chúng tôi bắt đầu với một số phi ủy quyền trước ... tốt ... tất cả mọi thứ. Mỗi khi chúng ta học được điều gì đó, thông tin đó được kết hợp với trước để tạo phân phối sau, lần lượt trở thành ưu tiên cho lần tiếp theo chúng ta học một thứ gì đó. Điều này cung cấp cho bạn một quy tắc cập nhật mạch lạc và bạn có thể so sánh các giả thuyết khác nhau về những điều cụ thể bằng cách tính yếu tố Bayes giữa hai giả thuyết. Có lẽ bạn có thể tạo ra các khối lớn của mô hình, điều này thậm chí sẽ không khiến điều này trở nên đặc biệt khó chịu.

Có một ... meme dai dẳng rằng các phương pháp Bayes không yêu cầu sửa chữa nhiều so sánh. Thật không may, tỷ lệ cược sau chỉ là một thống kê kiểm tra khác cho những người thường xuyên (ví dụ, những người quan tâm đến lỗi Loại I / II). Họ không có bất kỳ thuộc tính đặc biệt nào kiểm soát các loại lỗi này (Tại sao họ lại như vậy?) Vì vậy, bạn quay trở lại trong lãnh thổ khó hiểu, nhưng có lẽ trên mặt đất nguyên tắc hơn một chút.

Đối số phản đối Bayes là chúng ta nên tập trung vào những gì chúng ta có thể biết bây giờ và do đó những tỷ lệ lỗi này không quan trọng.


Về sinh sản

Bạn dường như đang đề xuất rằng nhiều so sánh không đúng - điều chỉnh là lý do đằng sau rất nhiều kết quả không chính xác / không thể đưa ra. Ý thức của tôi là các yếu tố khác có nhiều khả năng là một vấn đề. Một điều hiển nhiên là áp lực xuất bản khiến mọi người tránh các thí nghiệm thực sự nhấn mạnh giả thuyết của họ (tức là thiết kế thử nghiệm tồi).

p


Cảm ơn Matt. Tôi thích ý tưởng của một "Quốc vương thống kê". Tuy nhiên, liệu có thể kiểm soát tỷ lệ phát hiện sai mà không áp dụng một số hiệu chỉnh như vậy?
Kelvin

9
Vấn đề tôi đang cố gắng để làm cho là nó không có ý nghĩa để lo lắng về những sai Discovery Rate (hoặc tỷ lệ lỗi familywise) trên tất cả các nỗ lực của con người. Làm như vậy sẽ đòi hỏi rất nhiều ác cảm rủi ro mà bạn sẽ không bao giờ làm được gì. Thay vào đó, bạn giữ FDR / FWER cho các thử nghiệm riêng lẻ ở mức khá thấp và cố gắng sao chép những điều quan trọng cũng thú vị / hữu ích / v.v.
Matt Krause

Cảm ơn, tôi đoán cuối cùng tất cả bắt nguồn từ việc sao chép những thứ quan trọng. Điều này hoàn toàn phù hợp với triết lý của khoa học, rằng không có giả thuyết nào có thể được chứng minh, chỉ được củng cố theo thời gian bằng các thí nghiệm lặp đi lặp lại.
Kelvin

3
+1 cho Quốc vương thống kê. Một cân nhắc quan trọng: làm thế nào Sultan nên xử lý thực tế là giá trị p đến liên tiếp? Một p = 0,045 tệ hại đến đầu tiên sẽ được coi là đáng kể nhưng sau một vài thế kỷ sẽ không có cơ hội? Điều đó dường như không có ý nghĩa (cc thành @Kelvin). Một cân nhắc khác: hãy tưởng tượng rằng Sultan sẽ đợi 1 năm và áp dụng sự điều chỉnh cho tất cả các kết quả từ năm ngoái; Tôi tự hỏi những gì ngưỡng alpha điều chỉnh sẽ thực sự trở thành trong thực tế. Có ý kiến ​​gì về điều đó không, Matt? Đó là (giả!) Giả sử mọi người đồng ý về một alpha chung.
amip nói rằng Phục hồi lại

2
@amoeba, đó là một câu hỏi thú vị và tôi không chắc là mình biết. Data Despot yêu quý của chúng tôi có thể buộc mọi người sử dụng một số loại thiết kế tuần tự, có thể giúp ích, nhưng anh ấy vẫn đang thử nghiệm giả thuyết hợp chất kỳ lạ này. Thay phiên, tất cả chúng ta có thể trở thành Bayes và ngừng lo lắng về hồ sơ theo dõi lỗi Loại I / II của chúng tôi hầu hết thời gian. Cái này hơi rẻ (nếu bạn không thể đánh bại họ, bỏ qua chúng!), Nhưng tôi nghĩ nó gần với cách mọi người cư xử trong thực tế.
Matt Krause

7

Tôi nghĩ rằng bạn cố tình vẽ ra một cái nhìn bi quan về khoa học được tạo ra bởi thống kê. Thật vậy, theo tôi, thống kê không chỉ là một bộ công cụ cung cấp giá trị p. Ngoài ra còn có một trạng thái nghiêm ngặt, quan tâm và cảnh giác về một số tác động có thể có liên quan đến thủ tục cảm ứng khoa học ... và trong suy nghĩ của tôi, mọi thứ bạn nói đều gần đúng, đây là một số ý kiến ​​của tôi về lý do tại sao chúng tôi có một số đảm bảo về kiến ​​thức chúng tôi sản xuất:

  • Đầu tiên, nói chung, không nên đưa ra kết luận theo đối số của giá trị ap thấp hơn ngưỡng cho trước.

  • Thứ hai, đối với kiến ​​thức của tôi về loại "hơn một nửa kết quả khoa học được công bố là sai" có liên quan và thú vị nhưng được tính toán trên cơ sở giá trị p xấp xỉ bằng 0,05 (xem ví dụ Nhầm lẫn về giá trị p và tỷ lệ phát hiện sai ) . Đối với các giá trị p thấp hơn, hiệu ứng thấp hơn nhiều so với công bố và trong thực tế, không hiếm khi đạt được giá trị p thấp hơn nhiều so với 0,05. Hơn nữa, nhiều lần một giả thuyết được đưa ra được xác nhận bởi một số giả thuyết phụ làm giảm hiệu ứng được công bố.

  • Thứ ba, câu hỏi về khả năng tái tạo là có thật nhưng cũng là một vấn đề cần được nhà thống kê giải quyết bằng cách xác định và xử lý các hiệu ứng gây nhiễu, thiết kế nhóm ... và điều này có thể được thực hiện rất tốt nếu nó được thực hiện với chuyên môn và sự nghiêm ngặt.

  • Cuối cùng, theo tôi hiểu, một nghiên cứu thống kê nguyên mẫu phải ít nhiều đứng trên 5 bước tiếp theo sau đây:

    Formulate one or a few hypotheses
    Design the corresponding study
    Acquire the data
    Analyse the data
    Make conclusions about the above hypotheses (and only these ones)
    

    Hướng dẫn chung này ngăn chúng tôi khỏi các cuộc thám hiểm câu cá như một công cụ để đưa ra kết luận chung.

Để kết luận, tôi sẽ nói rằng ý định của bạn để bảo vệ chúng tôi chống lại các kết luận khoa học xấu bằng cách tăng giá trị p quá mức là một chút ảo tưởng. Tôi muốn bảo vệ chúng tôi chống lại các kết luận khoa học xấu bằng cách đảm bảo và khuyến khích các phân tích được cảnh báo và đúng đắn (và tôi muốn nghĩ rằng đây là lý do tại sao rất nhiều người có trình độ ở đây để giúp đỡ những người khác trên trang web này).


2
Tôi không nghĩ nó giúp phòng thủ. Vấn đề hiện tại về tính không thể sản xuất trong khoa học không chỉ là "thú vị", nó đang ở thời điểm khủng hoảng và nằm trên trang bìa của Tự nhiên và thậm chí là Nhà kinh tế, vì liệu có nên tin vào một nghiên cứu cụ thể (hoặc thậm chí hiệu quả của một loại thuốc được phê duyệt ) bây giờ không tốt hơn một lần lật đồng xu, mặc dù đã đầu tư hàng tỷ đô la.
Kelvin

6
Tôi đồng ý rằng một cuộc khủng hoảng tồn tại. Quan điểm của tôi là bạn có thể kiểm tra chất lượng của đồng tiền. Không phải tất cả các giấy tờ đều có cùng chất lượng và theo kinh nghiệm của tôi, đôi khi rất dễ để chỉ ra những sai sót. Tôi không phủ nhận vấn đề Tôi từ chối giải pháp: chỉ cần đưa ra phân tích phù hợp :)
peuhp

Ok, cảm ơn, tôi tôn trọng câu trả lời của bạn. Nhưng vẫn theo quan điểm thống kê, và bất kể chất lượng thí nghiệm là bao nhiêu, chúng ta không bao giờ có thể kiểm soát tỷ lệ phát hiện sai chung mà không áp dụng một số hiệu chỉnh như vậy, chúng ta có thể không?
Kelvin

0

Có thể kiểm soát tỷ lệ phát hiện sai mà không áp dụng một số điều chỉnh như vậy?

Vâng. Đây là những gì một ngưỡng trên giá trị p thực hiện: nó đặt tỷ lệ phát hiện sai cho ngưỡng đó. Về lâu dài, trên tất cả các bài kiểm tra chạy trên các giả thuyết null thực sự, chỉ100aa

Hãy nhớ rằng tỷ lệ lỗi (thường xuyên) không liên quan đến bất kỳ xác suất nào về một giả thuyết được kiểm tra bởi bất kỳ thử nghiệm riêng lẻ nào, nhưng là phương pháp để tiến hành các thử nghiệm với tỷ lệ thất bại dài hạn được đảm bảo. Sửa lỗi cho nhiều so sánh là một phương pháp khác để đảm bảo tỷ lệ thất bại dài hạn: một phương pháp để xây dựng các phương pháp hỗn hợp có chứa nhiều thử nghiệm để một số tỷ lệ thất bại dài hạn được đảm bảo cho các hợp chất.

Nếu bạn tiến hành một thử nghiệm duy nhất với 100 thử nghiệm và báo cáo rằng 5 trong số đó đã nói chống lại null, do đó tuyên bố rằng bạn đã quan sát thấy một số kết quả thực sự, sẽ không có ai ấn tượng, vì biết rằng trung bình, trong số 100 thử nghiệm null thực sự, 5% sẽ Từ chối; phương pháp bạn đã sử dụng, "tiến hành 100 thử nghiệm và báo cáo nếu bất kỳ phương pháp nào đạt ngưỡng 5%", có tỷ lệ thất bại cao hơn 5%. Do đó, bạn có thể chọn kiểm soát nhiều so sánh và báo cáo rằng ví dụ 2 trong số 100 thử nghiệm có giá trị p thấp hơn (5/100 == 0,05)%. Bây giờ bạn sử dụng một phương pháp có tỷ lệ thất bại được bảo đảm (đối với lỗi báo cáo ít nhất một thử nghiệm quan trọng mặc dù không có giả thuyết nào là sai) là 5%.

a, ngưỡng không quan tâm). Ngược lại, nếu mọi người luôn kiểm tra 100 giả thuyết thực tế cho mỗi nghiên cứu và không áp dụng FEW, số lượng thử nghiệm báo cáo hiệu ứng đáng kể sẽ vượt quá tỷ lệ lỗi được bảo đảm là 5%. (Tương phản với FDR / Tỷ lệ phát hiện sai, đây không phải là phương pháp đảm bảo tỷ lệ báo cáo bất kỳ thử nghiệm quan trọng nào trong một nghiên cứu về nhiều thử nghiệm của các giả thuyết thực.)


6
Cái mà bạn gọi là "tỷ lệ phát hiện sai" trong đoạn đầu tiên của bạn không phải là "tỷ lệ phát hiện sai".
amip nói rằng Phục hồi lại
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.