Cụm từ p- hacking (cũng: "nạo vét dữ liệu" , "rình mò" hoặc "câu cá") dùng để chỉ các loại sai lầm thống kê khác nhau trong đó kết quả trở nên có ý nghĩa thống kê. Có nhiều cách để tạo ra một kết quả "quan trọng hơn", bao gồm nhưng không có nghĩa là giới hạn:
- chỉ phân tích một tập hợp con "thú vị" của dữ liệu , trong đó một mẫu được tìm thấy;
- không điều chỉnh đúng cho nhiều thử nghiệm , đặc biệt là thử nghiệm sau hoc và không báo cáo các thử nghiệm được thực hiện không đáng kể;
- thử các thử nghiệm khác nhau của cùng một giả thuyết , ví dụ cả thử nghiệm tham số và thử nghiệm không tham số ( có một số thảo luận về điều đó trong chủ đề này ), nhưng chỉ báo cáo quan trọng nhất;
- thử nghiệm bao gồm / loại trừ các điểm dữ liệu , cho đến khi thu được kết quả mong muốn. Một cơ hội đến khi "các ngoại lệ làm sạch dữ liệu", nhưng cũng có khi áp dụng một định nghĩa mơ hồ (ví dụ: trong một nghiên cứu kinh tế lượng của "các nước phát triển", các định nghĩa khác nhau mang lại các nhóm quốc gia khác nhau) hoặc tiêu chí đưa vào định tính (ví dụ: trong phân tích tổng hợp , nó có thể là một đối số cân bằng tốt cho dù phương pháp của một nghiên cứu cụ thể có đủ mạnh mẽ để đưa vào);
- ví dụ trước có liên quan đến việc dừng tùy chọn , nghĩa là phân tích dữ liệu và quyết định có thu thập thêm dữ liệu hay không tùy thuộc vào dữ liệu được thu thập cho đến nay ("điều này gần như có ý nghĩa, hãy đo thêm ba sinh viên!") mà không tính đến điều này trong phân tích;
- thử nghiệm trong quá trình điều chỉnh mô hình , đặc biệt là các biến số bao gồm, nhưng cũng liên quan đến biến đổi dữ liệu / dạng chức năng.
Vì vậy, chúng tôi biết p- hacking có thể được thực hiện. Nó thường được liệt kê là một trong những "mối nguy hiểm của giá trị p " và đã được đề cập trong báo cáo ASA về ý nghĩa thống kê, được thảo luận ở đây trên Cross xác thực , vì vậy chúng tôi cũng biết đó là một điều xấu. Mặc dù một số động lực đáng ngờ và (đặc biệt là trong cuộc thi xuất bản học thuật) khuyến khích phản tác dụng là rõ ràng, tôi nghi ngờ rằng thật khó để tìm ra lý do tại sao nó được thực hiện, cho dù cố tình sai lầm hoặc thiếu hiểu biết đơn giản. Ai đó báo cáo giá trị p từ hồi quy từng bước (vì họ tìm thấy các quy trình từng bước "tạo ra các mô hình tốt", nhưng không nhận ra p có ý định-giá trị bị vô hiệu) ở trại sau, nhưng hiệu ứng vẫn còn p- hack dưới điểm đạn cuối cùng của tôi ở trên.
Chắc chắn có bằng chứng cho thấy p -hacking là "ngoài kia", ví dụ như Trưởng et al (2015) tìm kiếm dấu hiệu cho câu chuyện về nó lây nhiễm cho các tài liệu khoa học, nhưng tình trạng hiện tại của cơ sở bằng chứng của chúng tôi về nó là gì? Tôi biết rằng cách tiếp cận của Head et al không phải là không có tranh cãi, vì vậy tình trạng hiện tại của văn học, hay suy nghĩ chung trong cộng đồng học thuật, sẽ rất thú vị. Ví dụ, chúng tôi có bất kỳ ý tưởng về:
- Nó phổ biến đến mức nào, và ở mức độ nào chúng ta có thể phân biệt sự xuất hiện của nó với xu hướng xuất bản ? (Sự phân biệt này thậm chí có ý nghĩa?)
- Là tác dụng đặc biệt cấp tính ở ranh giới ? Chẳng hạn, các hiệu ứng tương tự được nhìn thấy ở p ≈ 0,01 , hay chúng ta thấy toàn bộ phạm vi giá trị p bị ảnh hưởng?
- Các mô hình trong p- hacking có khác nhau giữa các lĩnh vực học thuật không?
- Chúng ta có ý tưởng nào về cơ chế tấn công p (một số trong số đó được liệt kê trong các gạch đầu dòng ở trên) là phổ biến nhất không? Có một số hình thức được chứng minh là khó phát hiện hơn những hình thức khác vì chúng "được ngụy trang tốt hơn"?
Người giới thiệu
Trưởng, ML, Holman, L., Lanfear, R., Kahn, AT, & Jennions, MD (2015). Mức độ và hậu quả của p- hack trong khoa học . Biol PLoS , 13 (3), e1002106.