Đây thực sự là cách p-value hoạt động? Một triệu bài nghiên cứu mỗi năm có thể dựa trên sự ngẫu nhiên thuần túy?

98

Tôi rất mới với số liệu thống kê và tôi chỉ đang học cách hiểu những điều cơ bản, bao gồm giá trị . Nhưng có một dấu hỏi rất lớn trong đầu tôi lúc này và tôi hy vọng sự hiểu biết của mình là sai. Đây là quá trình suy nghĩ của tôi: $p$

Không phải tất cả các nghiên cứu trên khắp thế giới đều giống như những con khỉ trong "định lý khỉ vô hạn"? Hãy xem xét rằng có 23887 trường đại học trên thế giới. Nếu mỗi trường đại học có 1000 sinh viên, thì đó là 23 triệu sinh viên mỗi năm.

Giả sử mỗi năm, mỗi sinh viên thực hiện ít nhất một phần nghiên cứu, sử dụng kiểm tra giả thuyết với . $\alpha=0.05$

Điều đó không có nghĩa là ngay cả khi tất cả các mẫu nghiên cứu được lấy từ một quần thể ngẫu nhiên, khoảng 5% trong số chúng sẽ "từ chối giả thuyết khống là không hợp lệ". Ồ Nghĩ về điều đó. Đó là khoảng một triệu bài nghiên cứu mỗi năm được công bố do kết quả "đáng kể".

Nếu đây là cách nó hoạt động, điều này thật đáng sợ. Điều đó có nghĩa là rất nhiều "sự thật khoa học" mà chúng ta cho là dựa trên sự ngẫu nhiên thuần túy.

Một đoạn mã R đơn giản dường như hỗ trợ sự hiểu biết của tôi:

library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]

Bài viết này về -fishing thành công : Tôi đã đánh lừa hàng triệu người nghĩ về sô cô la giúp giảm cân. Đây là cách làm . $p$

Đây thực sự là tất cả có nó? Đây có phải là cách "khoa học" được cho là hoạt động?

hypothesis-testing statistical-significance p-value

— n_mu_sigma
nguồn

31

Vấn đề thực sự có khả năng tồi tệ hơn nhiều so với việc nhân số null thực sự với mức ý nghĩa, do áp lực phải tìm ra ý nghĩa (nếu một tạp chí quan trọng sẽ không công bố kết quả không quan trọng, hoặc trọng tài sẽ từ chối một bài báo không có kết quả quan trọng, có áp lực để tìm cách đạt được ý nghĩa ... và chúng tôi thấy các cuộc thám hiểm 'săn bắn có ý nghĩa' trong nhiều câu hỏi ở đây); điều này có thể dẫn đến mức ý nghĩa thực sự cao hơn khá nhiều so với mức có vẻ.

— Glen_b

5

Mặt khác, nhiều giả thuyết null là null điểm, và những điều đó rất hiếm khi thực sự đúng.

— Glen_b

37

Vui lòng không kết hợp phương pháp khoa học với giá trị p. Trong số những thứ khác, khoa học nhấn mạnh vào khả năng tái sản xuất . Đó là cách mà các bài báo về, hợp hạch lạnh có thể được xuất bản (năm 1989) nhưng hợp hạch lạnh không tồn tại như một lý thuyết khoa học có thể sử dụng trong một phần tư thế kỷ qua. Cũng lưu ý rằng, rất ít nhà khoa học quan tâm đến việc làm việc trong các lĩnh vực mà giả thuyết null có liên quan thực sự là đúng . Do đó, giả thuyết của bạn rằng "tất cả các mẫu nghiên cứu được lấy từ [một] dân số ngẫu nhiên" không phản ánh bất cứ điều gì thực tế.

— whuber

13

Tài liệu tham khảo bắt buộc cho phim hoạt hình thạch đậu xkcd . Câu trả lời ngắn gọn - điều này không may xảy ra quá thường xuyên và một số tạp chí hiện đang khăng khăng yêu cầu một nhà thống kê xem xét mọi ấn phẩm để giảm số lượng nghiên cứu "đáng kể" được đưa vào phạm vi công cộng. Rất nhiều câu trả lời và nhận xét có liên quan trong cuộc thảo luận trước đó

— Floris

8

Có lẽ tôi không nhận được khiếu nại ... "Chúng tôi đã đánh bại thành công 95% giả thuyết không có thật. 5% còn lại không dễ bị đánh bại do biến động ngẫu nhiên trông giống như hiệu ứng có ý nghĩa. Chúng ta nên xem xét kỹ hơn và bỏ qua 95% khác. " Điều này nghe có vẻ giống như loại hành vi phù hợp cho bất cứ điều gì như "khoa học".

— Tháp Eric

70

Đây chắc chắn là một mối quan tâm hợp lệ, nhưng điều này không hoàn toàn đúng.

Nếu 1.000.000 nghiên cứu được thực hiện và tất cả các giả thuyết null đều đúng thì khoảng 50.000 sẽ có kết quả quan trọng với p <0,05. Đó là ý nghĩa của giá trị ap. Tuy nhiên, null về cơ bản không bao giờ đúng hoàn toàn. Nhưng ngay cả khi chúng ta nới lỏng nó thành "gần như đúng" hoặc "đúng" hoặc một số thứ như vậy, điều đó có nghĩa là tất cả 1.000.000 nghiên cứu sẽ phải về những thứ như

Mối quan hệ giữa số an sinh xã hội và IQ
Là độ dài của ngón chân của bạn có liên quan đến trạng thái sinh của bạn?

vân vân Vô lý.

Tất nhiên, một vấn đề là chúng ta không biết null nào là đúng. Một vấn đề khác là một @Glen_b được đề cập trong bình luận của anh ấy - vấn đề ngăn kéo tập tin.

Đây là lý do tại sao tôi rất thích những ý tưởng của Robert Abelson mà ông đưa ra trong Thống kê như là lý lẽ nguyên tắc . Đó là, bằng chứng thống kê nên là một phần của một lập luận nguyên tắc về lý do tại sao một cái gì đó là trường hợp và nên được đánh giá theo các tiêu chí MAGIC:

Tầm quan trọng: Hiệu ứng lớn như thế nào?
Phát âm: Có đầy đủ "ifs", "ands" và "buts" (điều đó thật tệ)
Tổng quát: Nó được áp dụng rộng rãi như thế nào?
Thú vị
Tín dụng: Yêu cầu bồi thường đáng kinh ngạc đòi hỏi nhiều bằng chứng

— Peter Flom
nguồn

4

Thậm chí người ta có thể nói "nếu các nghiên cứu 1M được thực hiện và ngay cả khi tất cả các giả thuyết null là đúng, thì khoảng 50.000 sẽ thực hiện lỗi loại 1 và từ chối sai giả thuyết null? Nếu một nhà nghiên cứu nhận được p <0,05 thì họ chỉ biết rằng" h0 là đúng và một sự kiện hiếm hoi đã xảy ra HOẶC h1 là không chính xác ". Không có cách nào để biết đó là gì khi chỉ nhìn vào kết quả của nghiên cứu này, phải không?

— n_mu_sigma

5

Bạn chỉ có thể nhận được dương tính giả nếu trên thực tế, dương tính là sai. Nếu bạn chọn 40 IV là tất cả nhiễu, thì bạn sẽ có khả năng xảy ra lỗi loại I. Nhưng nói chung, chúng tôi chọn IV vì một lý do. Và null là sai. Bạn không thể tạo ra lỗi loại I nếu null là sai.

— Peter Flom

6

Tôi hoàn toàn không hiểu đoạn thứ hai của bạn, bao gồm cả các gạch đầu dòng. Chúng ta hãy nói rằng để tranh luận, tất cả 1 triệu nghiên cứu đã thử nghiệm các hợp chất thuốc để chữa một tình trạng cụ thể. Giả thuyết khống cho mỗi nghiên cứu này là thuốc không chữa được tình trạng này. Vậy, tại sao điều đó "không bao giờ đúng hoàn toàn"? Ngoài ra, tại sao bạn nói tất cả các nghiên cứu sẽ phải liên quan đến các mối quan hệ vô nghĩa, như ss # và IQ? Cảm ơn cho bất kỳ lời giải thích bổ sung có thể giúp tôi hiểu quan điểm của bạn.

— Chelonia

11

Để làm cho các ví dụ của @ PeterFlom trở nên cụ thể: ba chữ số đầu tiên của SSN (được sử dụng) mã hóa mã zip của người nộp đơn. Vì các quốc gia riêng lẻ có một số yếu tố nhân khẩu học và kích thước ngón chân khác nhau có thể tương quan với một số yếu tố nhân khẩu học (tuổi, chủng tộc, v.v.), gần như chắc chắn có mối quan hệ giữa số an sinh xã hội và kích thước ngón chân - nếu một người có đủ dữ liệu.

— Matt Krause

6

@MattKrause ví dụ hay. Tôi thích đếm ngón tay theo giới tính. Tôi chắc chắn rằng nếu tôi tham gia một cuộc điều tra dân số của tất cả đàn ông và tất cả phụ nữ, tôi sẽ thấy rằng một giới tính có nhiều ngón tay trung bình hơn giới tính khác. Không lấy một mẫu cực lớn, tôi không biết giới tính nào có nhiều ngón tay hơn. Hơn nữa, tôi nghi ngờ là một nhà sản xuất găng tay, tôi sẽ sử dụng dữ liệu điều tra ngón tay trong thiết kế găng tay.

— emory

40

Không phải tất cả các nghiên cứu trên khắp thế giới đều giống như loài khỉ "định lý khỉ vô hạn" sao?

Hãy nhớ rằng, các nhà khoa học cực kỳ KHÔNG thích những con khỉ vô hạn, bởi vì hành vi nghiên cứu của chúng - đặc biệt là thử nghiệm - là bất cứ điều gì ngoài sự ngẫu nhiên. Các thí nghiệm (ít nhất là được cho là) các thao tác và phép đo được kiểm soát cực kỳ cẩn thận dựa trên các giả thuyết được thông tin cơ học xây dựng trên một cơ thể lớn của nghiên cứu trước đây. Chúng không chỉ là những bức ảnh ngẫu nhiên trong bóng tối (hoặc ngón tay khỉ trên máy chữ).

Hãy xem xét rằng có 23887 trường đại học trên thế giới. Nếu mỗi trường đại học có 1000 sinh viên, thì đó là 23 triệu sinh viên mỗi năm. Hãy nói rằng mỗi năm, mỗi sinh viên thực hiện ít nhất một nghiên cứu,

Ước tính đó cho số lượng các kết quả nghiên cứu được công bố đã được đưa ra. Tôi không biết có 23 triệu "sinh viên đại học" (có bao gồm cả các trường đại học hay cao đẳng không?) Trên thế giới, nhưng tôi biết rằng phần lớn trong số họ không bao giờ công bố bất kỳ phát hiện khoa học nào. Ý tôi là, hầu hết trong số họ không phải là chuyên ngành khoa học, và thậm chí hầu hết các chuyên ngành khoa học không bao giờ công bố kết quả.

Một ước tính nhiều khả năng (một số thảo luận ) cho số lượng ấn phẩm khoa học mỗi năm là khoảng 1-2 triệu.

Điều đó không có nghĩa là ngay cả khi tất cả các mẫu nghiên cứu được lấy từ dân số ngẫu nhiên, khoảng 5% trong số họ sẽ "từ chối giả thuyết khống là không hợp lệ". Ồ Hãy nghĩ về điều đó. Đó là khoảng một triệu bài nghiên cứu mỗi năm được công bố do kết quả "đáng kể".

Hãy nhớ rằng, không phải tất cả các nghiên cứu được công bố đều có số liệu thống kê trong đó ý nghĩa là đúng với giá trị p = 0,05. Thông thường người ta thấy các giá trị p như p <0,01 hoặc thậm chí p <0,001. Tất nhiên, tôi không biết giá trị p "trung bình" là bao nhiêu trên một triệu giấy tờ.

Nếu đây là cách nó hoạt động, điều này thật đáng sợ. Điều đó có nghĩa là rất nhiều "sự thật khoa học" mà chúng ta cho là dựa trên sự ngẫu nhiên thuần túy.

Cũng nên nhớ, các nhà khoa học thực sự không nên lấy một số lượng nhỏ kết quả ở mức khoảng 0,05 là "sự thật khoa học". Thậm chí không gần gũi. Các nhà khoa học được cho là tích hợp qua nhiều nghiên cứu, mỗi nghiên cứu có sức mạnh thống kê, cơ chế hợp lý, khả năng tái tạo, mức độ ảnh hưởng, v.v., và kết hợp nó vào một mô hình dự kiến về cách thức một số hiện tượng hoạt động.

Nhưng, điều này có nghĩa là hầu hết tất cả các khoa học là chính xác? Không đời nào. Các nhà khoa học là con người, và trở thành con mồi cho những thành kiến, phương pháp nghiên cứu tồi tệ (bao gồm các phương pháp thống kê không phù hợp), gian lận, lỗi đơn giản của con người và xui xẻo. Có lẽ chiếm ưu thế hơn tại sao một phần lành mạnh của khoa học được công bố là sai là những yếu tố này chứ không phải là quy ước p <0,05. Trên thực tế, chúng ta chỉ cần cắt quyền theo đuổi và đưa ra tuyên bố thậm chí còn "đáng sợ" hơn những gì bạn đã đưa ra:

Tại sao hầu hết các kết quả nghiên cứu được công bố là sai

— Chelonia
nguồn

10

Tôi muốn nói rằng Ioannidis đang đưa ra một lập luận chặt chẽ nhằm hỗ trợ cho câu hỏi. Khoa học không được thực hiện bất cứ điều gì cũng như những người lạc quan trả lời ở đây dường như nghĩ. Và rất nhiều nghiên cứu được công bố không bao giờ được nhân rộng. Hơn nữa, khi cố gắng sao chép, các kết quả có xu hướng sao lưu lập luận Ioannidis rằng khoa học được công bố nhiều về cơ bản là các bollocks.

— matt_black

9

Điều đáng quan tâm là trong vật lý hạt, ngưỡng giá trị p của chúng ta để yêu cầu một khám phá là 0,00000057.

— David Z

2

Và trong nhiều trường hợp, không có giá trị p nào cả. Toán học và vật lý lý thuyết là những trường hợp phổ biến.

— Davidmh

21

Sự hiểu biết của bạn về giá trị dường như là chính xác. $p$

Mối quan tâm tương tự được lên tiếng khá thường xuyên. Điều có ý nghĩa để tính toán trong ví dụ của bạn, không chỉ là số lượng nghiên cứu trong số 23 triệu đến kết quả dương tính giả, mà còn là tỷ lệ của các nghiên cứu thu được hiệu quả đáng kể là sai. Điều này được gọi là "tỷ lệ phát hiện sai". Nó không bằng và phụ thuộc vào nhiều thứ khác, chẳng hạn như tỷ lệ null trong các nghiên cứu 23 triệu của bạn. Điều này tất nhiên là không thể biết, nhưng người ta có thể đoán. Một số người nói rằng tỷ lệ phát hiện sai là ít nhất 30%. $\alpha$

Xem ví dụ cuộc thảo luận gần đây về một bài báo năm 2014 của David Colquhoun: Nhầm lẫn với tỷ lệ phát hiện sai và nhiều thử nghiệm (trên Colquhoun 2014) . Tôi đã tranh luận ở đó chống lại ước tính "ít nhất 30%" này, nhưng tôi đồng ý rằng trong một số lĩnh vực nghiên cứu, tỷ lệ phát hiện sai có thể cao hơn 5% một chút. Điều này thực sự đáng lo ngại.

Tôi không nghĩ rằng nói rằng null gần như không bao giờ đúng ở đây; Lỗi loại S và loại M (như được giới thiệu bởi Andrew Gelman) không tốt hơn nhiều so với lỗi loại I / II.

Tôi nghĩ điều đó thực sự có nghĩa là, người ta không bao giờ nên tin vào một kết quả "đáng kể" bị cô lập.

Điều này thậm chí đúng trong vật lý năng lượng cao với tiêu chí siêu nghiêm ngặt ; chúng tôi tin rằng việc phát hiện ra boson Higgs một phần vì nó rất phù hợp với dự đoán lý thuyết. Điều này tất nhiên là nhiều hơn rất nhiều vì vậy trong một số ngành khác với tiêu chí có ý nghĩa thông thường thấp hơn nhiều ( ) và thiếu dự đoán lý thuyết rất cụ thể. $\alpha\approx 10^{-7}$ $\alpha=0.05$

Các nghiên cứu tốt, ít nhất là trong lĩnh vực của tôi, không báo cáo kết quả bị cô lập . Một phát hiện như vậy sẽ cần phải được xác nhận bằng một phân tích khác (ít nhất là độc lập một phần) và bằng một vài thí nghiệm độc lập khác. Nếu tôi nhìn vào các nghiên cứu tốt nhất trong lĩnh vực của mình, tôi luôn thấy cả đống thí nghiệm cùng nhau chỉ ra một kết quả cụ thể; giá trị "tích lũy" của chúng (không bao giờ được tính toán rõ ràng) là rất thấp. $p<0.05$ $p$

Nói cách khác, tôi nghĩ rằng nếu một nhà nghiên cứu nhận được một số , điều đó chỉ có nghĩa là anh ta hoặc cô ta nên đi và điều tra thêm. Nó chắc chắn không có nghĩa là nó nên được coi là "sự thật khoa học". $p<0.05$

— amip
nguồn

Re "tích lũy giá trị p": Bạn có thể nhân các giá trị p riêng lẻ hay bạn cần thực hiện một số phép kết hợp quái dị để làm cho nó hoạt động?

— Kevin

@Kevin: người ta có thể nhân giá trị riêng lẻ , nhưng người ta cần điều chỉnh ngưỡng ý nghĩa . Hãy nghĩ về 10 giá trị ngẫu nhiên được phân bố đồng đều trên [0,1] (nghĩa là được tạo ra theo giả thuyết null); sản phẩm của họ rất có thể sẽ dưới 0,05, nhưng sẽ vô nghĩa khi từ chối null. Tìm phương pháp kết hợp giá trị p của Fisher; có rất nhiều chủ đề về nó ở đây trên CrossValidated.

p

$p$

α

$\alpha$

p

$p$

— amip

17

Mối quan tâm của bạn chính xác là mối quan tâm làm cơ sở cho rất nhiều cuộc thảo luận hiện tại trong khoa học về khả năng tái sản xuất. Tuy nhiên, tình trạng thực sự phức tạp hơn một chút so với bạn đề xuất.

Đầu tiên, hãy thiết lập một số thuật ngữ. Kiểm tra ý nghĩa giả thuyết Null có thể được hiểu là một vấn đề phát hiện tín hiệu - giả thuyết null là đúng hoặc sai và bạn có thể chọn từ chối hoặc giữ lại nó. Sự kết hợp của hai quyết định và hai trạng thái "thực tế" có thể dẫn đến kết quả trong bảng sau đây, mà hầu hết mọi người đều thấy tại một số điểm khi lần đầu tiên học thống kê:

nhập mô tả hình ảnh ở đây

Các nhà khoa học sử dụng thử nghiệm ý nghĩa giả thuyết null đang cố gắng tối đa hóa số lượng quyết định chính xác (hiển thị màu xanh lam) và giảm thiểu số lượng quyết định không chính xác (hiển thị màu đỏ). Các nhà khoa học làm việc cũng đang cố gắng công bố kết quả của họ để họ có thể có được việc làm và thăng tiến trong sự nghiệp.

Tất nhiên, hãy nhớ rằng, như nhiều người trả lời khác đã đề cập, giả thuyết null không được chọn ngẫu nhiên - thay vào đó, nó thường được chọn cụ thể bởi vì, dựa trên lý thuyết trước đó, nhà khoa học tin rằng nó là sai . Thật không may, thật khó để định lượng tỷ lệ các lần mà các nhà khoa học đúng trong dự đoán của họ, nhưng hãy nhớ rằng, khi các nhà khoa học đang xử lý cột " là sai", họ nên lo lắng về âm tính giả thay vì dương tính giả. $H_0$

Tuy nhiên, bạn dường như lo ngại về các kết quả dương tính giả, vì vậy hãy tập trung vào cột " là đúng". Trong tình huống này, xác suất của một nhà khoa học công bố một kết quả sai là gì? $H_0$

Sai lệch xuất bản

Miễn là xác suất xuất bản không phụ thuộc vào việc kết quả có "đáng kể" hay không, thì xác suất đó chính xác là - 0,05 và đôi khi thấp hơn tùy thuộc vào trường. Vấn đề là có bằng chứng tốt cho thấy xác suất xuất bản không phụ thuộc vào kết quả có đáng kể hay không (xem, ví dụ, Stern & Simes, 1997 ; Dwan et al., 2008 ), bởi vì các nhà khoa học chỉ gửi kết quả quan trọng cho xuất bản (vấn đề được gọi là ngăn kéo tệp; Rosenthal, 1979 ) hoặc do các kết quả không quan trọng được gửi để xuất bản nhưng không được thực hiện thông qua đánh giá ngang hàng. $\alpha$

Vấn đề chung về xác suất xuất bản tùy thuộc vào giá trị được quan sát là ý nghĩa của xu hướng xuất bản . Nếu chúng ta lùi lại một bước và suy nghĩ về ý nghĩa của xu hướng xuất bản đối với tài liệu nghiên cứu rộng hơn, một tài liệu nghiên cứu bị ảnh hưởng bởi xu hướng xuất bản sẽ vẫn chứa kết quả đúng - đôi khi giả thuyết khống cho rằng một nhà khoa học tuyên bố là sai thực sự sẽ là sai, và, tùy thuộc vào mức độ sai lệch xuất bản, đôi khi một nhà khoa học sẽ tuyên bố chính xác rằng một giả thuyết null đã cho là đúng. Tuy nhiên, tài liệu nghiên cứu cũng sẽ bị xáo trộn bởi tỷ lệ dương tính giả quá lớn (nghĩa là các nghiên cứu trong đó nhà nghiên cứu cho rằng giả thuyết khống là sai khi thực sự đúng). $p$

Nhà nghiên cứu mức độ tự do

Xu hướng xuất bản không phải là cách duy nhất mà theo giả thuyết khống, xác suất công bố kết quả quan trọng sẽ lớn hơn . Khi được sử dụng không đúng cách, một số lĩnh vực linh hoạt nhất định trong thiết kế nghiên cứu và phân tích dữ liệu, đôi khi được gắn nhãn mức độ tự do của nhà nghiên cứu ( Simmons, Nelson, & Simonsohn, 2011 ), có thể làm tăng tỷ lệ dương tính giả, ngay cả khi không có sai lệch xuất bản. Ví dụ: nếu chúng tôi cho rằng, khi đạt được kết quả không đáng kể, tất cả (hoặc một số) nhà khoa học sẽ loại trừ một điểm dữ liệu ngoại vi nếu loại trừ này sẽ thay đổi kết quả không đáng kể thành kết quả quan trọng, tỷ lệ dương tính giả sẽ là lớn hơn $\alpha$ $\alpha$ . Với sự hiện diện của một số lượng lớn các thực tiễn nghiên cứu đáng ngờ, tỷ lệ dương tính giả có thể lên tới 0,5% ngay cả khi tỷ lệ danh nghĩa được đặt ở 0,05 ( Simmons, Nelson, & Simonsohn, 2011 ).

Điều quan trọng cần lưu ý là việc sử dụng không đúng mức độ tự do của nhà nghiên cứu (đôi khi được gọi là thực tiễn nghiên cứu đáng ngờ; Martinson, Anderson, & de Vries, 2005 ) không giống như tạo dữ liệu. Trong một số trường hợp, loại trừ các ngoại lệ là điều nên làm, vì thiết bị không thành công hoặc vì một số lý do khác. Vấn đề chính là, với sự hiện diện của mức độ tự do của nhà nghiên cứu, các quyết định được đưa ra trong quá trình phân tích thường phụ thuộc vào cách dữ liệu bật ra ( Gelman & Loken, 2014), ngay cả khi các nhà nghiên cứu trong câu hỏi không nhận thức được thực tế này. Chừng nào các nhà nghiên cứu sử dụng mức độ tự do của nhà nghiên cứu (một cách có ý thức hoặc vô thức) để tăng xác suất của một kết quả quan trọng (có lẽ vì kết quả quan trọng là "có thể xuất bản" hơn), sự hiện diện của mức độ tự do của nhà nghiên cứu sẽ vượt quá một tài liệu nghiên cứu với sự tích cực sai trong cùng một cách như thiên vị xuất bản.

Một cảnh báo quan trọng cho các cuộc thảo luận ở trên là các bài báo khoa học (ít nhất là trong tâm lý học, đó là lĩnh vực của tôi) hiếm khi bao gồm các kết quả duy nhất. Phổ biến hơn là nhiều nghiên cứu, mỗi nghiên cứu bao gồm nhiều thử nghiệm - trọng tâm là xây dựng một lập luận lớn hơn và loại trừ những giải thích thay thế cho bằng chứng được trình bày. Tuy nhiên, việc trình bày có chọn lọc các kết quả (hoặc sự hiện diện của mức độ tự do của nhà nghiên cứu) có thể tạo ra sự thiên vị trong một tập hợp kết quả dễ dàng như một kết quả duy nhất. Có bằng chứng cho thấy các kết quả được trình bày trong các bài báo đa nghiên cứu thường sạch sẽ và mạnh mẽ hơn nhiều so với mong đợi ngay cả khi tất cả các dự đoán của các nghiên cứu này đều đúng ( Francis, 2013 ).

Phần kết luận

Về cơ bản, tôi đồng ý với trực giác của bạn rằng thử nghiệm ý nghĩa giả thuyết null có thể sai. Tuy nhiên, tôi sẽ lập luận rằng thủ phạm thực sự tạo ra tỷ lệ dương tính giả cao là các quá trình như sai lệch xuất bản và sự hiện diện của mức độ tự do của nhà nghiên cứu. Thật vậy, nhiều nhà khoa học nhận thức rõ về những vấn đề này và cải thiện khả năng tái sản xuất khoa học là một chủ đề thảo luận rất tích cực hiện nay (ví dụ, Nosek & Bar-Anan, 2012 ; Nosek, Spies, & Motyl, 2012 ). Vì vậy, bạn đang ở trong công ty tốt với mối quan tâm của bạn, nhưng tôi cũng nghĩ rằng cũng có những lý do cho một số lạc quan thận trọng.

Người giới thiệu

Stern, JM, & Simes, RJ (1997). Xu hướng xuất bản: Bằng chứng về việc xuất bản bị trì hoãn trong một nghiên cứu đoàn hệ các dự án nghiên cứu lâm sàng. BMJ, 315 (7109), 640 Tiếng645. http://doi.org/10.1136/bmj.315.7109.640

Dwan, K., Altman, DG, Arnaiz, JA, Bloom, J., Chan, A., Cronin, E., Tiết Williamson, PR (2008). Đánh giá có hệ thống các bằng chứng thực nghiệm về xu hướng xuất bản nghiên cứu và sai lệch báo cáo kết quả. PLoS MỘT, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081

Rosenthal, R. (1979). Các vấn đề ngăn kéo tập tin và dung sai cho kết quả null. Bản tin tâm lý, 86 (3), 638 trừ641. http://doi.org/10.1037/0033-2909.86.3.638

Simmons, JP, Nelson, LD, & Simonsohn, Hoa Kỳ (2011). Tâm lý dương tính giả: Tính linh hoạt không được tiết lộ trong thu thập và phân tích dữ liệu cho phép trình bày bất cứ điều gì quan trọng. Khoa học tâm lý, 22 (11), 1359 Từ1366. http://doi.org/10.1177/0956797611417632

Martinson, BC, Anderson, MS, & de Vries, R. (2005). Các nhà khoa học hành xử xấu. Thiên nhiên, 435, 737 Điện738. http://doi.org/10.1038/435737a

Gelman, A., & Loken, E. (2014). Cuộc khủng hoảng thống kê trong khoa học. Nhà khoa học Mỹ, 102, 460-465.

Đức Phanxicô, G. (2013). Nhân rộng, thống nhất thống kê và thiên vị xuất bản. Tạp chí Tâm lý học toán học, 57 (5), 153 Từ169. http://doi.org/10.1016/j.jmp.2013.02.003

Mũi, BA, & Bar-Anan, Y. (2012). Khoa học không tưởng: I. Mở giao tiếp khoa học. Điều tra tâm lý, 23 (3), 217 Từ243. http://doi.org/10.1080/1047840X.2012,692215

Mũi, BA, Điệp viên, JR, & Motyl, M. (2012). Khoa học không tưởng: II. Tái cơ cấu khuyến khích và thực hành để thúc đẩy sự thật về khả năng xuất bản. Quan điểm về khoa học tâm lý, 7 (6), 615 trận631. http://doi.org/10.1177/1745691612459058

— Patrick S. Forscher
nguồn

1

+1. Bộ sưu tập liên kết đẹp. Đây là một bài viết rất phù hợp cho phần "Mức độ tự do của nhà nghiên cứu" của bạn: Khu vườn của những con đường rèn: Tại sao nhiều so sánh có thể là một vấn đề, ngay cả khi không có "cuộc thám hiểm câu cá" hay "hack-packing" và giả thuyết nghiên cứu là đặt ra trước thời hạn bởi Andrew Gelman và Eric Loken (2013).

— amip

Cảm ơn, @amoeba, vì sự tham khảo thú vị đó. Tôi đặc biệt thích quan điểm mà Gelman và Loken (2013) đưa ra rằng việc tận dụng mức độ tự do của nhà nghiên cứu không cần phải là một quá trình có ý thức. Tôi đã chỉnh sửa câu trả lời của mình để bao gồm bài báo đó.

— Patrick S. Forscher

Tôi vừa tìm thấy phiên bản xuất bản của Gelman & Loken (2014) trong Nhà khoa học Mỹ.

— Patrick S. Forscher

10

Một kiểm tra đáng kể về vấn đề quan trọng được nêu ra trong câu hỏi này là "sự thật khoa học" không dựa trên các ấn phẩm riêng lẻ. Nếu một kết quả đủ thú vị, nó sẽ thúc đẩy các nhà khoa học khác theo đuổi ý nghĩa của kết quả. Công việc đó sẽ có xu hướng xác nhận hoặc bác bỏ phát hiện ban đầu. Có thể có 1/20 cơ hội bác bỏ một giả thuyết khống thực sự trong một nghiên cứu riêng lẻ, nhưng chỉ có 1/400 thực hiện hai lần liên tiếp.

Nếu các nhà khoa học chỉ đơn giản lặp lại các thí nghiệm cho đến khi họ tìm thấy "ý nghĩa" và sau đó công bố kết quả của họ thì vấn đề có thể lớn như OP gợi ý. Nhưng đó không phải là cách khoa học hoạt động, ít nhất là trong gần 50 năm kinh nghiệm của tôi trong nghiên cứu y sinh. Hơn nữa, một ấn phẩm hiếm khi nói về một thử nghiệm "có ý nghĩa" duy nhất mà dựa trên một tập hợp các thử nghiệm liên quan đến nhau (mỗi yêu cầu phải "có ý nghĩa") cùng nhau hỗ trợ cho một giả thuyết thực chất, rộng lớn hơn.

Một vấn đề lớn hơn nhiều đến từ các nhà khoa học quá cam kết với các giả thuyết của riêng họ. Sau đó, họ có thể diễn giải quá mức ý nghĩa của các thử nghiệm riêng lẻ để hỗ trợ cho giả thuyết của họ, tham gia chỉnh sửa dữ liệu đáng ngờ (như tự ý xóa các ngoại lệ) hoặc (như tôi đã thấy và giúp bắt) chỉ tạo ra dữ liệu.

Tuy nhiên, khoa học là một quá trình mang tính xã hội cao, bất kể thần thoại về các nhà khoa học điên đang ẩn nấp trong tháp ngà. Sự cho và nhận giữa hàng ngàn nhà khoa học theo đuổi lợi ích của họ, dựa trên những gì họ đã học được từ công việc của người khác, là sự bảo vệ thể chế cuối cùng khỏi những mặt tích cực giả. Phát hiện sai đôi khi có thể được duy trì trong nhiều năm, nhưng nếu một vấn đề đủ quan trọng thì quá trình cuối cùng sẽ xác định các kết luận sai lầm.

— EdM
nguồn

6

1 / 4000

$1/4000$

40

$40$

2

Trong số 23 triệu nghiên cứu, chúng tôi vẫn không thể biết liệu 5.000 kết quả có bác bỏ giả thuyết khống chỉ do tiếng ồn không? Nó thực sự cũng là một vấn đề về quy mô. Khi bạn có hàng triệu nghiên cứu, lỗi loại 1 sẽ phổ biến.

— n_mu_sigma

3

Nếu chỉ có 5000 kết luận sai lầm trong số 23.000.000 nghiên cứu thì tôi sẽ gọi đó là điều không phổ biến !

— whuber

3

Trong gần 50 năm làm khoa học và biết các nhà khoa học khác, tôi không thể nghĩ ra bất kỳ ai lặp lại thí nghiệm cho đến khi họ đạt được "ý nghĩa". Theo tôi, khả năng lý thuyết được nêu ra là, theo kinh nghiệm của tôi, không phải là một vấn đề thực tế lớn. Vấn đề thực tế lớn hơn nhiều là tạo ra dữ liệu, gián tiếp bằng cách vứt bỏ "ngoại lệ" không phù hợp với định kiến hoặc chỉ bằng cách tạo ra "dữ liệu" để bắt đầu. Những hành vi mà tôi đã thấy tận mắt và chúng không thể được sửa bằng cách điều chỉnh giá trị p .

— EDM

3

@EdM "Có thể có 1/20 cơ hội bác bỏ giả thuyết khống thực sự trong một nghiên cứu riêng lẻ, nhưng chỉ có 1/4000 thực hiện hai lần liên tiếp." Làm thế nào bạn có được số thứ hai?

— Aksakal

5

Chỉ cần thêm vào cuộc thảo luận, đây là một bài viết thú vị và thảo luận tiếp theo về cách mọi người thường hiểu nhầm giá trị p.

Điều nên được giữ lại trong mọi trường hợp là giá trị p chỉ là thước đo sức mạnh của bằng chứng trong việc bác bỏ một giả thuyết nhất định. Giá trị p chắc chắn không phải là ngưỡng cứng dưới mức mà điều gì đó là "đúng" và trên đó chỉ là do tình cờ. Như đã giải thích trong bài viết được tham khảo ở trên:

kết quả là sự kết hợp giữa hiệu ứng thực tế và cơ hội, nó không phải / hoặc

— Antoine
nguồn

có lẽ điều này sẽ góp phần vào sự hiểu biết về giá trị p: stats.stackexchange.com/questions/166323/ mẹo

4

Như đã chỉ ra trong các câu trả lời khác, điều này sẽ chỉ gây ra vấn đề nếu bạn định xem xét có chọn lọc các kết quả tích cực trong đó giả thuyết khống được loại trừ. Đây là lý do tại sao các nhà khoa học viết các bài báo đánh giá trong đó họ xem xét các kết quả nghiên cứu đã được công bố trước đó và cố gắng phát triển sự hiểu biết tốt hơn về chủ đề dựa trên điều đó. Tuy nhiên, vẫn còn một vấn đề, đó là do cái gọi là "xu hướng xuất bản", tức là các nhà khoa học có nhiều khả năng viết một bài báo về một kết quả tích cực hơn là kết quả tiêu cực, cũng là một bài báo về kết quả tiêu cực là nhiều khả năng bị từ chối xuất bản hơn là một bài báo về một kết quả tích cực.

Đặc biệt trong các lĩnh vực mà kiểm tra thống kê là rất quan trọng đây sẽ là một vấn đề lớn, lĩnh vực y học là một ví dụ nổi tiếng. Đây là lý do tại sao bắt buộc phải đăng ký thử nghiệm lâm sàng trước khi chúng được tiến hành (ví dụ ở đây ). Vì vậy, bạn phải giải thích việc thiết lập, cách phân tích thống kê sẽ được thực hiện, v.v. trước khi thử nghiệm được tiến hành. Các tạp chí y tế hàng đầu sẽ từ chối xuất bản các bài báo nếu các thử nghiệm mà họ báo cáo về nơi không đăng ký.

Thật không may, mặc dù biện pháp này, hệ thống không hoạt động tốt như vậy .

— Bá tước Iblis
nguồn

có lẽ điều này sẽ góp phần vào sự hiểu biết về giá trị p: stats.stackexchange.com/questions/166323/ mẹo

3

Điều này gần với một thực tế rất quan trọng về phương pháp khoa học: nó nhấn mạnh đến tính giả mạo. Triết lý của khoa học phổ biến nhất hiện nay có khái niệm giả mạo của Karl Popper là một hòn đá tảng.

Quá trình khoa học cơ bản là như vậy:

Bất cứ ai cũng có thể yêu cầu bất kỳ lý thuyết nào họ muốn, bất cứ lúc nào. Khoa học sẽ thừa nhận bất kỳ lý thuyết nào là "giả mạo". Ý nghĩa chính xác nhất của từ đó là, nếu bất kỳ ai khác không thích yêu cầu bồi thường, người đó có thể tự do sử dụng các nguồn lực để từ chối yêu cầu đó. Nếu bạn không nghĩ rằng vớ argyle chữa được bệnh ung thư, bạn có thể tự do sử dụng phòng y tế của mình để từ chối nó.
Bởi vì thanh nhập cảnh này thấp một cách ngoạn mục, theo truyền thống, "Khoa học" là một nhóm văn hóa sẽ không thực sự giải trí cho bất kỳ ý tưởng nào cho đến khi bạn thực hiện một "nỗ lực tốt" để làm sai lệch lý thuyết của riêng bạn.
Chấp nhận các ý tưởng có xu hướng đi trong các giai đoạn. Bạn có thể đưa khái niệm của bạn vào một bài báo với một nghiên cứu và giá trị p khá thấp. Những gì không mua cho bạn là công khai và một số tín nhiệm. Nếu ai đó quan tâm đến ý tưởng của bạn, chẳng hạn như nếu khoa học của bạn có các ứng dụng kỹ thuật, họ có thể muốn sử dụng nó. Vào thời điểm đó, họ có nhiều khả năng tài trợ cho một vòng giả mạo bổ sung.
Quá trình này diễn ra, luôn luôn có cùng một thái độ: tin những gì bạn muốn, nhưng để gọi nó là khoa học, tôi cần có thể từ chối nó sau này.

Thanh thấp này cho mục nhập là những gì cho phép nó rất sáng tạo. Vì vậy, có, có một số lượng lớn các bài báo tạp chí "sai" về mặt lý thuyết ngoài kia. Tuy nhiên, mấu chốt là mọi bài báo được xuất bản đều là giả thuyết , vì vậy tại bất kỳ thời điểm nào, ai đó có thể chi tiền để kiểm tra nó.

Đây là chìa khóa: các tạp chí không chỉ chứa những thứ vượt qua bài kiểm tra p hợp lý mà còn chứa các khóa để người khác tháo dỡ nó nếu kết quả hóa ra là sai.

— Corton
nguồn

1

Điều này rất lý tưởng. Một số người lo ngại rằng quá nhiều bài báo sai có thể tạo ra tỷ lệ tín hiệu trên tạp âm quá thấp trong tài liệu và làm chậm nghiêm trọng hoặc làm sai quy trình khoa học.

— amip

1

@amoeba Bạn làm mang đến một điểm tốt. Tôi chắc chắn muốn chụp trường hợp lý tưởng bởi vì tôi thấy nó bị mất trong tiếng ồn. Ngoài ra, tôi nghĩ rằng câu hỏi về SNR trong tài liệu là một câu hỏi hợp lệ, nhưng ít nhất nó là một câu hỏi nên được cân bằng. Đã có khái niệm về các tạp chí tốt và các tạp chí nghèo, vì vậy có một số gợi ý rằng hành động cân bằng đã được tiến hành trong một thời gian.

— Cort Ammon

Nắm bắt triết lý của khoa học này dường như là một vài thập kỷ lỗi thời. Tính giả mạo của Popperian chỉ "phổ biến" theo nghĩa là một huyền thoại đô thị phổ biến về cách khoa học xảy ra.

— EnergyNumbers 21/07/2015

@EnergyNumbers Bạn có thể khai sáng cho tôi cách suy nghĩ mới không? Triết lý SE có một quan điểm rất khác với bạn. Nếu bạn nhìn vào lịch sử câu hỏi đằng kia, falsifiability Popperian là các đặc tính của khoa học đối với đa số những người nói tiếng nói của mình. Tôi thích học cách suy nghĩ mới hơn và mang nó đến đó!

— Cort Ammon

Mới? Kuhn đã bác bỏ Popper từ nhiều thập kỷ trước. Nếu bạn không có ai đăng Popperian trên triết lý.se, thì việc cập nhật nó dường như là một nguyên nhân đã mất - hãy để nó vào những năm 1950. Nếu bạn muốn cập nhật bản thân, thì bất kỳ chuyên gia đại học nào từ thế kỷ 21 về triết lý khoa học sẽ giúp bạn bắt đầu.

— EnergyNumbers 21/07/2015

1

Đây có phải là cách "khoa học" được cho là hoạt động?

Đó là cách rất nhiều khoa học xã hội hoạt động. Không quá nhiều với khoa học vật lý. Hãy nghĩ về điều này: bạn đã gõ câu hỏi của bạn trên máy tính. Mọi người đã có thể xây dựng những con thú phức tạp này được gọi là máy tính sử dụng kiến thức về vật lý, hóa học và các lĩnh vực khoa học vật lý khác. Nếu tình hình tồi tệ như bạn mô tả, không có thiết bị điện tử nào hoạt động. Hoặc nghĩ về những thứ như khối lượng của một electron, được biết đến với độ chính xác điên rồ. Chúng đi qua hàng tỷ cổng logic trong một máy tính và máy tính của bạn vẫn hoạt động và hoạt động trong nhiều năm.

CẬP NHẬT: Để đáp ứng với số phiếu giảm mà tôi nhận được, tôi cảm thấy được truyền cảm hứng để cung cấp cho bạn một vài ví dụ.

Đầu tiên là từ vật lý: Bystritsky, VM, et al. " Đo các yếu tố vật lý thiên văn S và các mặt cắt ngang của phản ứng p (d,) 3He trong vùng năng lượng ultralow bằng cách sử dụng mục tiêu deuteride zirconium ." Vật lý của các hạt và chữ Nuclei 10.7 (2013): 717-722.

$0.237 \pm 0.061$

Ví dụ tiếp theo của tôi là từ ... tâm lý học: Paustian-Underdahl, Samantha C., Lisa Slattery Walker và David J. Woehr. " Giới tính và nhận thức về hiệu quả lãnh đạo: Một phân tích tổng hợp của người điều hành theo ngữ cảnh ." Tạp chí Tâm lý học ứng dụng, 2014, Tập. 99, số 6, 1129 bồi1145.

$\chi^2$

Bây giờ, hãy xem một số bảng từ giấy tờ và đoán xem chúng thuộc loại giấy tờ nào:

nhập mô tả hình ảnh ở đây

Đó là câu trả lời tại sao trong một trường hợp bạn cần số liệu thống kê "tuyệt vời" và trong trường hợp khác bạn không: vì dữ liệu có phải là nhảm nhí hoặc không. Khi bạn có dữ liệu tốt, bạn không cần nhiều số liệu thống kê ngoài các lỗi tiêu chuẩn.

CẬP NHẬT2: @ PatrickS.Forscher đã đưa ra một tuyên bố thú vị trong bình luận:

Cũng đúng là các lý thuyết khoa học xã hội "mềm hơn" (ít chính thức hơn) so với các lý thuyết vật lý.

Tôi phải không đồng ý. Trong Kinh tế và Tài chính, các lý thuyết không "mềm" chút nào. Bạn có thể ngẫu nhiên tra cứu một tờ giấy trong các lĩnh vực này và nhận được một cái gì đó như thế này:

nhập mô tả hình ảnh ở đây

vân vân

Đó là từ Schervish, Mark J., Teddy Seidenfeld và Joseph B. Kadane. " Phần mở rộng của lý thuyết tiện ích dự kiến và một số hạn chế của so sánh cặp ." (2003). Điều này có vẻ mềm mại với bạn?

Tôi đang nhắc lại quan điểm của tôi ở đây rằng khi lý thuyết của bạn không tốt và dữ liệu rất tệ, bạn có thể sử dụng toán học khó nhất mà vẫn nhận được kết quả tệ hại.

Trong bài báo này, họ đang nói về các tiện ích, khái niệm như hạnh phúc và sự hài lòng - hoàn toàn không thể quan sát được. Nó giống như một tiện ích của việc có một ngôi nhà so với việc ăn một miếng phô mai là gì? Có lẽ có chức năng này, nơi bạn có thể cắm "ăn phô mai" hoặc "sống trong nhà riêng" và chức năng này sẽ đưa ra câu trả lời trong một số đơn vị. Thật điên rồ khi nghe đây là những gì hiện đại học được xây dựng trên, cảm ơn von Neuman.

— Aksakal
nguồn

1

+1 Không chắc chắn lý do tại sao điều này đã bị hạ cấp hai lần. Về cơ bản, bạn đang chỉ ra rằng những khám phá trong vật lý có thể được thử nghiệm bằng các thí nghiệm và hầu hết các "khám phá" trong khoa học xã hội đều không thể, điều đó không ngăn họ nhận được nhiều sự chú ý của truyền thông.

— Flounderer

6

Hầu hết các thí nghiệm cuối cùng liên quan đến một số loại kiểm tra thống kê và vẫn còn chỗ cho các lỗi loại 1 và các hành vi sai trái như câu cá giá trị p. Tôi nghĩ rằng việc chọn ra các ngành khoa học xã hội là một chút sai lầm.

— Kenji

4

Để sửa đổi một chút những gì @GuilhermeKenjiChihaya đang nói, độ lệch chuẩn của các lỗi có thể được sử dụng để thực hiện kiểm tra thống kê trong các thí nghiệm vật lý. Có lẽ thử nghiệm thống kê này sẽ đi đến cùng một kết luận mà các tác giả đạt được khi xem biểu đồ với các thanh lỗi của nó. Sự khác biệt chính với các bài báo vật lý, là lượng nhiễu cơ bản trong thí nghiệm, một sự khác biệt không phụ thuộc vào việc logic cơ bản việc sử dụng các giá trị p là hợp lệ hoặc không hợp lệ.

— Patrick S. Forscher

3

Ngoài ra, @Flounderer, dường như bạn đang sử dụng thuật ngữ "thử nghiệm" theo nghĩa mà tôi không quen thuộc, vì các nhà khoa học xã hội thực hiện "thí nghiệm" (nghĩa là ngẫu nhiên hóa các đơn vị theo điều kiện) mọi lúc. Đúng là các thí nghiệm khoa học xã hội rất khó kiểm soát ở cùng mức độ hiện diện như trong các thí nghiệm vật lý. Cũng đúng là các lý thuyết khoa học xã hội "mềm hơn" (ít chính thức hơn) so với các lý thuyết vật lý. Nhưng những yếu tố này không phụ thuộc vào việc một nghiên cứu nhất định có phải là một "thí nghiệm" hay không.

— Patrick S. Forscher

2

@Aksakal trong khi tôi không đồng ý với -1, tôi cũng không đồng ý với lời phê bình của bạn về khoa học xã hội. Ví dụ về bài báo kinh tế của bạn cũng không phải là một ví dụ hay về những gì các nhà khoa học xã hội làm hàng ngày vì lý thuyết tiện ích là một khái niệm kinh tế / toán học / thống kê nghiêm ngặt (vì vậy nó đã có toán học trong đó) và nó không giống với lý thuyết tâm lý học được thử nghiệm bằng thực nghiệm ... Tuy nhiên tôi đồng ý rằng thường thì số liệu thống kê được sử dụng một cách lỏng lẻo trong nhiều lĩnh vực nghiên cứu, bao gồm cả khoa học xã hội.

— Tim