Vấn đề với các cuộc thám hiểm câu cá là thế này: nếu bạn kiểm tra đủ các giả thuyết, một trong số chúng sẽ được xác nhận với giá trị p thấp. Hãy để tôi đưa ra một ví dụ cụ thể.
Hãy tưởng tượng bạn đang làm một nghiên cứu dịch tễ học. Bạn đã tìm thấy 1000 bệnh nhân bị một tình trạng hiếm gặp. Bạn muốn biết những gì họ có điểm chung. Vì vậy, bạn bắt đầu thử nghiệm - bạn muốn xem liệu một đặc tính cụ thể có được thể hiện quá mức trong mẫu này hay không. Ban đầu bạn kiểm tra giới tính, chủng tộc, tiền sử gia đình thích hợp nhất định (cha chết vì bệnh tim trước 50 tuổi, nhưng cuối cùng, vì bạn gặp khó khăn trong việc tìm kiếm bất cứ thứ gì "dính", bạn bắt đầu thêm tất cả các loại yếu tố khác có thể liên quan đến bệnh:
- là người ăn chay
- đã đi du lịch đến Canada
- học xong đại học
- đã kết hôn
- có con
- có mèo
- có chó
- uống ít nhất 5 ly rượu vang đỏ mỗi tuần
...
Bây giờ đây là điều. Nếu tôi chọn đủ các giả thuyết "ngẫu nhiên", có thể bắt đầu có khả năng ít nhất một trong số đó sẽ dẫn đến giá trị ap nhỏ hơn 0,05 - bởi vì bản chất của giá trị p là "xác suất sai khi từ chối giả thuyết khống khi có không có tác dụng ". Đặt khác nhau - trung bình, cứ 20 giả thuyết không có thật bạn kiểm tra, một trong số chúng sẽ cho bạn ap <0,05 .
Đây là SO được tóm tắt rất tốt trong phim hoạt hình XKCD http://xkcd.com/882/ :
Bi kịch là ngay cả khi một tác giả riêng lẻ không thực hiện 20 thử nghiệm giả thuyết khác nhau trên một mẫu để tìm kiếm ý nghĩa, có thể có 19 tác giả khác làm điều tương tự; và người "tìm thấy" một mối tương quan bây giờ có một bài viết thú vị để viết, và một bài có khả năng được chấp nhận cho xuất bản
Điều này dẫn đến một xu hướng đáng tiếc cho những phát hiện không thể đưa ra. Cách tốt nhất để bảo vệ chống lại điều này với tư cách là một tác giả cá nhân là đặt thanh cao hơn. Thay vì kiểm tra các yếu tố riêng lẻ, hãy tự hỏi mình "nếu tôi kiểm tra N giả thuyết, xác suất để có ít nhất một dương tính giả là gì". Khi bạn đang thực sự thử nghiệm "giả thuyết câu cá", bạn có thể nghĩ đến việc thực hiện chỉnh sửa Bonferroni để bảo vệ chống lại điều này - nhưng mọi người thường không làm thế.
Có một số bài viết thú vị của Tiến sĩ Ioannides - được trích dẫn trên tờ Atlantic hàng tháng cụ thể về chủ đề này.
Xem thêm câu hỏi trước đó với một số câu trả lời sâu sắc.
cập nhật để trả lời tốt hơn cho tất cả các khía cạnh của câu hỏi của bạn:
Nếu bạn sợ bạn có thể "câu cá", nhưng bạn thực sự không biết giả thuyết nào sẽ được hình thành, bạn chắc chắn có thể chia dữ liệu của mình trong các phần "thăm dò", "sao chép" và "xác nhận". Về nguyên tắc, điều này sẽ hạn chế mức độ rủi ro của bạn đối với các rủi ro đã nêu trước đó: nếu bạn có giá trị ap 0,05 trong dữ liệu thăm dò và bạn nhận được một giá trị tương tự trong dữ liệu sao chép và xác nhận, thì nguy cơ bạn bị giảm sai. Một ví dụ hay về "làm đúng" đã được trình bày trên Tạp chí Y học Anh (một ấn phẩm rất được tôn trọng với Yếu tố Tác động của 17+)
Thăm dò và xác nhận các yếu tố liên quan đến mang thai không biến chứng ở phụ nữ không có thai: nghiên cứu đoàn hệ tương lai, Chappell et al
Đây là đoạn có liên quan:
Chúng tôi chia bộ dữ liệu của 5628 phụ nữ thành ba phần: bộ dữ liệu thăm dò của hai phần ba phụ nữ từ Úc và New Zealand, được chọn ngẫu nhiên (n = 2129); một bộ dữ liệu sao chép địa phương của một phần ba phụ nữ còn lại từ Úc và New Zealand (n = 1067); và một bộ dữ liệu xác nhận bên ngoài, khác biệt về địa lý của 2432 phụ nữ châu Âu từ Vương quốc Anh và Cộng hòa Ireland.
Quay trở lại một chút trong tài liệu, có một bài viết hay của Altman và cộng sự "Nghiên cứu tiên lượng và tiên lượng: xác nhận một mô hình tiên lượng" đi sâu hơn rất nhiều, và gợi ý những cách để đảm bảo bạn không rơi vào lỗi này. "Những điểm chính" từ bài viết:
Không nên sử dụng các mô hình không có giá trị trong thực hành lâm sàng Khi xác nhận mô hình tiên lượng, hiệu chuẩn và phân biệt đối xử nên được đánh giá Xác thực nên được thực hiện trên một dữ liệu khác với dữ liệu được sử dụng để phát triển mô hình, tốt nhất là từ bệnh nhân ở các trung tâm khác. do thiếu sót trong các phương pháp phát triển hoặc do mẫu mới quá khác so với ban đầu
Đặc biệt lưu ý đề xuất rằng việc xác thực được thực hiện (tôi diễn giải) với dữ liệu từ các nguồn khác - nghĩa là không đủ để phân chia dữ liệu của bạn một cách tùy ý thành các tập hợp con, nhưng bạn nên làm những gì bạn có thể để chứng minh rằng "học" trên một tập hợp từ một bộ các thí nghiệm có thể được áp dụng cho dữ liệu từ một tập hợp thí nghiệm khác. Đó là một thanh cao hơn, nhưng nó làm giảm thêm nguy cơ sai lệch hệ thống trong thiết lập của bạn tạo ra "kết quả" không thể được xác minh độc lập.
Đây là một chủ đề rất quan trọng - cảm ơn bạn đã đặt câu hỏi!