Chúng ta biết bao nhiêu về p-hack hack trong vùng hoang dã?


94

Cụm từ p- hacking (cũng: "nạo vét dữ liệu" , "rình mò" hoặc "câu cá") dùng để chỉ các loại sai lầm thống kê khác nhau trong đó kết quả trở nên có ý nghĩa thống kê. Có nhiều cách để tạo ra một kết quả "quan trọng hơn", bao gồm nhưng không có nghĩa là giới hạn:

  • chỉ phân tích một tập hợp con "thú vị" của dữ liệu , trong đó một mẫu được tìm thấy;
  • không điều chỉnh đúng cho nhiều thử nghiệm , đặc biệt là thử nghiệm sau hoc và không báo cáo các thử nghiệm được thực hiện không đáng kể;
  • thử các thử nghiệm khác nhau của cùng một giả thuyết , ví dụ cả thử nghiệm tham số và thử nghiệm không tham số ( có một số thảo luận về điều đó trong chủ đề này ), nhưng chỉ báo cáo quan trọng nhất;
  • thử nghiệm bao gồm / loại trừ các điểm dữ liệu , cho đến khi thu được kết quả mong muốn. Một cơ hội đến khi "các ngoại lệ làm sạch dữ liệu", nhưng cũng có khi áp dụng một định nghĩa mơ hồ (ví dụ: trong một nghiên cứu kinh tế lượng của "các nước phát triển", các định nghĩa khác nhau mang lại các nhóm quốc gia khác nhau) hoặc tiêu chí đưa vào định tính (ví dụ: trong phân tích tổng hợp , nó có thể là một đối số cân bằng tốt cho dù phương pháp của một nghiên cứu cụ thể có đủ mạnh mẽ để đưa vào);
  • ví dụ trước có liên quan đến việc dừng tùy chọn , nghĩa là phân tích dữ liệu và quyết định có thu thập thêm dữ liệu hay không tùy thuộc vào dữ liệu được thu thập cho đến nay ("điều này gần như có ý nghĩa, hãy đo thêm ba sinh viên!") mà không tính đến điều này trong phân tích;
  • thử nghiệm trong quá trình điều chỉnh mô hình , đặc biệt là các biến số bao gồm, nhưng cũng liên quan đến biến đổi dữ liệu / dạng chức năng.

Vì vậy, chúng tôi biết p- hacking có thể được thực hiện. Nó thường được liệt kê là một trong những "mối nguy hiểm của giá trị p " và đã được đề cập trong báo cáo ASA về ý nghĩa thống kê, được thảo luận ở đây trên Cross xác thực , vì vậy chúng tôi cũng biết đó là một điều xấu. Mặc dù một số động lực đáng ngờ và (đặc biệt là trong cuộc thi xuất bản học thuật) khuyến khích phản tác dụng là rõ ràng, tôi nghi ngờ rằng thật khó để tìm ra lý do tại sao nó được thực hiện, cho dù cố tình sai lầm hoặc thiếu hiểu biết đơn giản. Ai đó báo cáo giá trị p từ hồi quy từng bước (vì họ tìm thấy các quy trình từng bước "tạo ra các mô hình tốt", nhưng không nhận ra p có ý định-giá trị bị vô hiệu) ở trại sau, nhưng hiệu ứng vẫn còn p- hack dưới điểm đạn cuối cùng của tôi ở trên.

Chắc chắn có bằng chứng cho thấy p -hacking là "ngoài kia", ví dụ như Trưởng et al (2015) tìm kiếm dấu hiệu cho câu chuyện về nó lây nhiễm cho các tài liệu khoa học, nhưng tình trạng hiện tại của cơ sở bằng chứng của chúng tôi về nó là gì? Tôi biết rằng cách tiếp cận của Head et al không phải là không có tranh cãi, vì vậy tình trạng hiện tại của văn học, hay suy nghĩ chung trong cộng đồng học thuật, sẽ rất thú vị. Ví dụ, chúng tôi có bất kỳ ý tưởng về:

  • Nó phổ biến đến mức nào, và ở mức độ nào chúng ta có thể phân biệt sự xuất hiện của nó với xu hướng xuất bản ? (Sự phân biệt này thậm chí có ý nghĩa?)
  • Là tác dụng đặc biệt cấp tính ở ranh giới ? Chẳng hạn, các hiệu ứng tương tự được nhìn thấy ở p 0,01 , hay chúng ta thấy toàn bộ phạm vi giá trị p bị ảnh hưởng?p0.05p0.01
  • Các mô hình trong p- hacking có khác nhau giữa các lĩnh vực học thuật không?
  • Chúng ta có ý tưởng nào về cơ chế tấn công p (một số trong số đó được liệt kê trong các gạch đầu dòng ở trên) là phổ biến nhất không? Có một số hình thức được chứng minh là khó phát hiện hơn những hình thức khác vì chúng "được ngụy trang tốt hơn"?

Người giới thiệu

Trưởng, ML, Holman, L., Lanfear, R., Kahn, AT, & Jennions, MD (2015). Mức độ và hậu quả của p- hack trong khoa học . Biol PLoS , 13 (3), e1002106.


6
Câu hỏi cuối cùng của bạn là một ý tưởng hay cho một nghiên cứu: cung cấp một số dữ liệu thô cho một nhóm các nhà nghiên cứu tạo thành các lĩnh vực khác nhau, trang bị chúng trong SPSS (hoặc bất cứ thứ gì họ sử dụng) và sau đó ghi lại những gì họ đang làm trong khi cạnh tranh với nhau để có kết quả quan trọng hơn .
Tim

1
Người ta có thể làm điều đó mà không cần các đối tượng biết điều đó đang xảy ra bằng cách sử dụng lịch sử đệ trình kaggle. Họ không xuất bản, nhưng họ đang cố gắng bằng mọi cách có thể để đạt được con số ma thuật.
EngrStudent

1
Liệu crossvalidated có bất kỳ bộ sưu tập (ví dụ như wiki cộng đồng) của các ví dụ mô phỏng đơn giản về hack-p không? Tôi đang tưởng tượng các ví dụ về đồ chơi trong đó nhà nghiên cứu mô phỏng phản ứng với kết quả "có ý nghĩa không đáng kể" bằng cách thu thập thêm dữ liệu, thí nghiệm với thông số kỹ thuật hồi quy, v.v.
Adrian

2
@Adrian CV chỉ là một trang web Hỏi & Đáp, nó không chứa bất kỳ dữ liệu hoặc mã nào, không có bất kỳ kho lưu trữ ẩn nào - mọi thứ bạn tìm thấy trong câu trả lời là của bạn theo giấy phép CC :) Câu hỏi này dường như đang hỏi về việc thu thập các ví dụ đó.
Tim

1
@Tim tất nhiên, tôi đã không tưởng tượng bất kỳ repos mã ẩn nào - chỉ là các đoạn mã được bao gồm trong câu trả lời. Ví dụ, ai đó có thể hỏi "p-hack là gì?" Và ai đó có thể bao gồm mô phỏng đồ chơi R trong câu trả lời của họ. Nó có thích hợp để trả lời câu hỏi hiện tại với các ví dụ mã không? "Chúng ta biết bao nhiêu" là một câu hỏi rất rộng.
Adrian

Câu trả lời:


76

TÓM TẮT THỰC HIỆN: nếu hiểu theo nghĩa rộng "p-hack" , thì câu trả lời cho mức độ phổ biến của nó là nó gần như phổ biến.


Andrew Gelman thích viết về chủ đề này và đã được đăng tải rộng rãi về nó gần đây trên blog của mình. Tôi không luôn luôn đồng ý với ông nhưng tôi thích quan điểm của mình trên p -hacking. Dưới đây là đoạn trích từ bài Giới thiệu về bài viết về Khu vườn của những con đường rẽ nhánh (Gelman & Loken 2013; một phiên bản xuất hiện trong Nhà khoa học Mỹ 2014; xem thêm bình luận ngắn gọn của Gelman về tuyên bố của ASA), nhấn mạnh của tôi:

Vấn đề này đôi khi được gọi là mức độ tự do của người Hồi giáo hoặc nhà nghiên cứu của người Hồi giáo (Simmons, Nelson và Simonsohn, 2011). Trong một bài báo gần đây, chúng tôi đã nói về những chuyến thám hiểm câu cá [...]. Nhưng chúng tôi bắt đầu cảm thấy rằng thuật ngữ câu cá là không may, vì nó gợi lên hình ảnh của một nhà nghiên cứu đang thử so sánh sau khi so sánh, ném dây câu xuống hồ liên tục cho đến khi một con cá bị mắc bẫy. Chúng tôi không có lý do để nghĩ rằng các nhà nghiên cứu thường xuyên làm điều đó. Chúng tôi nghĩ rằng câu chuyện thực tế là các nhà nghiên cứu có thể thực hiện phân tích hợp lý dựa trên giả định và dữ liệu của họ, nhưng nếu dữ liệu bị biến đổi khác nhau, họ có thể thực hiện các phân tích khác cũng hợp lý trong những trường hợp đó.

Chúng tôi lấy làm tiếc về sự lan truyền của các thuật ngữ này, câu cá và một người nghiên cứu về cách tự do (và thậm chí là người nghiên cứu về sự tự do đã cố ý thử nhiều phân tích khác nhau trên một tập dữ liệu; và, thứ hai, bởi vì nó có thể khiến các nhà nghiên cứu biết rằng họ đã không thử nhiều phân tích khác nhau để nhầm tưởng rằng họ không quá chịu sự chi phối của các vấn đề về mức độ tự do của nhà nghiên cứu. [...] Điểm mấu chốt của chúng tôi ở đây là có thể có nhiều so sánh tiềm năng, theo nghĩa phân tích dữ liệu có chi tiết rất phụ thuộc vào dữ liệu, mà không cần nhà nghiên cứu thực hiện bất kỳ quy trình đánh bắt ý thức nào hoặc kiểm tra nhiều giá trị p .

Vì vậy: Gelman không thích thuật ngữ p-hack vì nó ngụ ý rằng các nghiên cứu đã tích cực gian lận. Trong khi đó các vấn đề có thể xảy ra đơn giản là vì các nhà nghiên cứu chọn thử nghiệm nào để thực hiện / báo cáo sau khi xem dữ liệu, tức là sau khi thực hiện một số phân tích thăm dò.

Với một số kinh nghiệm làm việc trong ngành sinh học, tôi có thể nói rằng mọi người đều làm điều đó một cách an toàn . Mọi người (bao gồm cả tôi) thu thập một số dữ liệu chỉ với những giả thuyết mơ hồ, phân tích khám phá sâu rộng, chạy các thử nghiệm quan trọng khác nhau, thu thập thêm một số dữ liệu, chạy và chạy lại các thử nghiệm và cuối cùng báo cáo một số giá trị p trong bản thảo cuối cùng. Tất cả điều này đang xảy ra mà không chủ động gian lận, thực hiện việc hái anh đào kiểu xkcd-thạch-đậu ngu ngốc , hoặc có ý thức hack bất cứ thứ gì.

Vì vậy, nếu "p-hack" được hiểu một cách rộng rãi những con đường tìm kiếm của Gelman, câu trả lời cho mức độ phổ biến của nó, là nó gần như phổ biến.

Các ngoại lệ duy nhất xuất hiện trong tâm trí là các nghiên cứu sao chép được đăng ký đầy đủ trong tâm lý học hoặc các thử nghiệm y tế được đăng ký trước đầy đủ.

Bằng chứng cụ thể

Thật thú vị, một số người đã thăm dò các nhà nghiên cứu để thấy rằng nhiều người thừa nhận đã thực hiện một số cách hack ( John và cộng sự 2012, Đo lường mức độ phổ biến của các thực tiễn nghiên cứu nghi vấn với khuyến khích cho việc kể sự thật ):

John và cộng sự

Ngoài ra, mọi người đều nghe về cái gọi là "khủng hoảng sao chép" trong tâm lý học: hơn một nửa các nghiên cứu gần đây được công bố trên các tạp chí tâm lý học hàng đầu không sao chép ( Nosek et al. 2015, Ước tính khả năng tái tạo của khoa học tâm lý ). (Nghiên cứu này gần đây đã được khắp nơi trên blog một lần nữa, bởi vì vấn đề tháng 3 năm 2016 Khoa học công bố một Nhận xét cố gắng bác bỏ Nosek et al. Và cũng là một câu trả lời bằng cách Nosek et al. Các cuộc thảo luận tiếp tục ở nơi khác, xem bài bởi Andrew GelmanRetractionWatch đăng bài mà anh ấy liên kết đến. Nói một cách lịch sự, bài phê bình không thuyết phục.)

Cập nhật tháng 11 năm 2018: Kaplan và Irvin, 2017, Khả năng ảnh hưởng không tốt của các thử nghiệm lâm sàng NHLBI lớn đã tăng lên theo thời gian cho thấy tỷ lệ các thử nghiệm lâm sàng báo cáo kết quả null tăng từ 43% lên 92% sau khi đăng ký trước bắt buộc:

nhập mô tả hình ảnh ở đây


P

Trưởng et al. 2015

Tôi chưa nghe về Head et al. nghiên cứu trước đây, nhưng bây giờ đã dành thời gian xem qua các tài liệu xung quanh. Tôi cũng đã có một cái nhìn ngắn gọn về dữ liệu thô của họ .

p=ap<a00.06

Phân phối giá trị p trong tài liệu

0.0001pp(0.045,0.5)(0.04,0.045)p

p=0.05p=0.048p=0.052p0.05

Và ngoài ra, hiệu quả rất nhỏ .

p0.05

p

p=0.04p=0.05p

p

ptFχ2

Giấy Hartgerink PeerJ

pp

Krawchot

p=0.05p0.05p

Mascicampo và Lalande

p

Mascicampo và Lalande

Điều này có vẻ ấn tượng, nhưng Lakens 2015 ( bản in sẵn ) trong một Nhận xét được xuất bản lập luận rằng điều này chỉ xuất hiện ấn tượng nhờ sự phù hợp theo cấp số nhân gây hiểu lầm. Xem thêm Lakens 2015, Về những thách thức khi rút ra kết luận từ giá trị p chỉ dưới 0,05 và các tài liệu tham khảo trong đó.

Kinh tế học

zp

Brodeur

ppp<0.05


Làm sai sự yên tâm?

ppp0.050.05

Uri Simonsohn lập luận rằng điều này là "trấn an sai lầm" . Chà, thực ra ông đã trích dẫn những bài báo này một cách không phê phán nhưng sau đó nhận xét rằng "hầu hết các giá trị p đều nhỏ hơn" 0,05. Sau đó, ông nói: "Đó là yên tâm, nhưng giả mạo yên tâm". Và đây là lý do:

Nếu chúng ta muốn biết nếu các nhà nghiên cứu p-hack kết quả của họ, chúng ta cần kiểm tra các giá trị p liên quan đến kết quả của họ, những người mà họ có thể muốn p-hack ngay từ đầu. Các mẫu, không thiên vị, chỉ phải bao gồm các quan sát từ dân số quan tâm.

Hầu hết các giá trị p được báo cáo trong hầu hết các bài báo đều không liên quan đến hành vi chiến lược quan tâm. Covariates, kiểm tra thao tác, tác dụng chính trong nghiên cứu tương tác thử nghiệm, v.v. Bao gồm cả chúng tôi đánh giá thấp việc hack p và chúng tôi đánh giá quá cao giá trị bằng chứng của dữ liệu. Phân tích tất cả các giá trị p hỏi một câu hỏi khác nhau, một câu hỏi ít nhạy cảm hơn. Thay vì các nhà nghiên cứu của Do Do p-hack những gì họ nghiên cứu? Chúng tôi hỏi các nhà nghiên cứu của Do Do p-hack mọi thứ?

pppp

Simonsohn

p

Kết luận

pp p0.05


4
simply because the researches chose what test to perform/report after looking at the dataĐúng; và vấn đề là không thể tránh khỏi vì hai lưỡi. Khi một phương pháp tốt hơn đang được chọn cho dữ liệu - đó có phải là quá mức của mẫu cụ thể đó hay cuộc họp về các cuộc gọi kỹ thuật của dân số đó? Hoặc - removeimg outliers - nó đang giả mạo dân số hoặc phục hồi nó? Ai sẽ nói, cuối cùng?
ttnphns

Loại câu trả lời mà tôi hy vọng nhất có lẽ là một đại diện ngắn gọn của tài liệu hiện tại, một số gợi ý về việc liệu Head et al có phải là một bản tóm tắt công bằng về suy nghĩ mới nhất, v.v. Tôi không mong đợi câu trả lời này. Nhưng tôi nghĩ nó thật tuyệt, và những suy nghĩ của Gelman và những hiểu biết thực tế đặc biệt hữu ích. Khi tôi viết câu hỏi tôi thực sự có những điều tương tự với @ttnphns (có lẽ nó cho thấy, tôi thậm chí đã cân nhắc bao gồm cả từ "quá mức".)
Silverfish

Tuy nhiên, ngoài sự bất ổn chung và không thể giải thích được về "cách thức hoạt động của khoa học trong thực tiễn" là một kết hợp không hoàn hảo cho các giả định của kiểm tra thống kê, tôi tự hỏi liệu bogeyman này có phải là "nghệ thuật đen tối của những kẻ tấn công độc hại" không? Nếu vậy, nó đạt được bao xa. Chắc chắn có những khuyến khích mạnh mẽ (mis) để khuyến khích nó.
Cá bạc

2
Bạn khiến tôi tò mò với Head et al. giấy, @Silverfish, vì vậy tôi phải thú nhận rằng ngay bây giờ, thay vì làm việc, tôi đang duyệt qua một số bài viết chỉ trích kết quả của Head et al. và thậm chí đã tải xuống dữ liệu thô của họ ... Ôi trời.
amip

2
+1. Bài viết trên blog Gelman mới nhất ( andrewgelman.com/2016/03/09/ trên ) bao gồm rất nhiều nền tảng và nêu bật một lời giới thiệu thú vị của một nhóm đã cố gắng sao chép và sau đó bị chỉ trích mạnh mẽ bởi các tác giả nghiên cứu ban đầu: retractionwatch.com/ 2016/03/07 / Thẻ
Wayne

22

Các lô phễu đã là một sự đổi mới thống kê to lớn đã biến phân tích meta trên đầu của nó. Về cơ bản, một biểu đồ hình phễu cho thấy ý nghĩa lâm sàng và thống kê trên cùng một biểu đồ. Lý tưởng nhất là chúng sẽ tạo thành hình phễu. Tuy nhiên, một số phân tích tổng hợp đã tạo ra các sơ đồ phễu cho thấy hình dạng lưỡng kim mạnh mẽ, trong đó các nhà điều tra (hoặc nhà xuất bản) chọn lọc giữ lại các kết quả không có giá trị. Kết quả là tam giác trở nên rộng hơn, bởi vì các nghiên cứu nhỏ hơn, ít năng lượng hơn đã sử dụng các phương pháp quyết liệt hơn để "khuyến khích" kết quả đạt được ý nghĩa thống kê. Nhóm Báo cáo của Cochrane có điều này để nói về họ .

Ví dụ, nếu có sai lệch vì các nghiên cứu nhỏ hơn không có hiệu ứng có ý nghĩa thống kê (được hiển thị dưới dạng các vòng tròn mở trong Hình 10.4.a, Bảng A) vẫn chưa được công bố, điều này sẽ dẫn đến sự xuất hiện không đối xứng của biểu đồ phễu với một khoảng trống ở góc dưới cùng của đồ thị (Bảng B). Trong tình huống này, hiệu ứng được tính toán trong phân tích tổng hợp sẽ có xu hướng đánh giá quá cao hiệu quả can thiệp (Egger 1997a, Villar 1997). Sự không đối xứng càng rõ rệt, càng có nhiều khả năng số lượng sai lệch sẽ là đáng kể.

Cốt truyện đầu tiên cho thấy một cốt truyện đối xứng trong trường hợp không có sự thiên vị. Phần thứ hai cho thấy một âm mưu bất đối xứng với sự hiện diện của báo cáo sai lệch. Thứ ba cho thấy một âm mưu bất đối xứng với sự hiện diện của sai lệch vì một số nghiên cứu nhỏ hơn (vòng tròn mở) có chất lượng phương pháp thấp hơn và do đó tạo ra ước tính hiệu quả can thiệp phóng đại.

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

Tôi nghi ngờ hầu hết các tác giả không biết về các phương pháp họ sử dụng để p-hack. Họ không theo dõi tổng số mô hình mà họ phù hợp, áp dụng các tiêu chí loại trừ khác nhau hoặc chọn cho các biến điều chỉnh khác nhau mỗi lần. Tuy nhiên, nếu tôi phải thực hiện một quy trình đơn giản, tôi rất thích xem tổng số mô hình phù hợp. Điều đó không có nghĩa là có thể có lý do chính đáng để chạy lại các mô hình, ví dụ như chúng ta vừa chạy qua phân tích Alzheimer mà không biết ApoE đã được thu thập trong mẫu. Trứng trên mặt tôi, chúng tôi chạy lại các mô hình.


4

2
Một khía cạnh của câu hỏi của tôi là sự phân biệt giữa "p-hack" và "xu hướng xuất bản" - câu trả lời này theo một số cách để kết hợp cả hai. Tôi có đúng không khi giải thích những gì bạn đang nói theo cách đó, tức là "xu hướng xuất bản thực chất là một hình thức hack, nhưng bởi nhà xuất bản"?
Cá bạc

1
pp

2
Hừm. Đầu tiên tôi muốn phản đối và tuyên bố rằng xu hướng xuất bản khác với p-hack (tương tự, tôi nghĩ, với cách @Silverfish đóng khung Q của anh ấy quá), nhưng sau đó tôi nhận ra rằng việc vẽ ranh giới khó khăn hơn tôi nghĩ ban đầu. Thực hiện nhiều so sánh kiểu thạch-đậu và chỉ báo cáo những so sánh quan trọng (p-hack?) Không khác lắm so với thực hiện nhiều nghiên cứu và chỉ báo cáo những nghiên cứu quan trọng (đó là định nghĩa xuất bản theo định nghĩa). Tuy nhiên, p-hack theo nghĩa xoa bóp dữ liệu cho đến khi chúng mang lại p <0,05 cảm thấy đủ khác biệt với tôi.
amip

2
pp
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.