Tôi không tin rằng việc kiểm tra các giả định của bất kỳ mô hình nào đủ điều kiện là hack-packing / câu cá. Trong bài viết đầu tiên, tác giả đang nói về các nhà phân tích liên tục thực hiện các phân tích trên một tập dữ liệu và chỉ báo cáo kết quả tốt nhất. Nói cách khác, họ đang cố tình miêu tả một bức tranh thiên vị về những gì đang xảy ra trong dữ liệu.
Kiểm tra các giả định của hồi quy hoặc bất kỳ mô hình nào là bắt buộc. Điều không bắt buộc là liên tục lấy mẫu lại từ dữ liệu để xác định kết quả tốt nhất có thể. Giả sử các nhà nghiên cứu có một mẫu đủ lớn để lấy, đôi khi họ sẽ lấy mẫu lại nhiều lần ... thực hiện kiểm tra giả thuyết nhiều lần .... cho đến khi họ đạt được kết quả họ muốn. Do đó p-hack. Họ đang hack giá trị p thông qua tìm kiếm kết quả mong muốn và sẽ không bỏ cuộc cho đến khi họ tìm thấy nó (câu cá). Vì vậy, ngay cả khi trong số 100 bài kiểm tra giả thuyết họ chỉ đạt được 1 kết quả quan trọng, họ sẽ báo cáo giá trị p thuộc về bài kiểm tra cụ thể đó và bỏ qua tất cả các bài kiểm tra khác.
Điều này có nghĩa không? Khi kiểm tra các giả định mô hình, bạn chắc chắn rằng mô hình đó phù hợp với dữ liệu bạn có. Với p-hack / fishing, bạn không ngừng tìm kiếm dữ liệu / thao tác nghiên cứu để đạt được kết quả mong muốn.
Đối với mục đích so sánh nhiều, nếu bạn tiếp tục chạy một mô hình qua bùn không ngừng cố gắng tìm cách vô hiệu hóa nó (hoặc xác nhận nó) thì cuối cùng bạn sẽ tìm ra cách. Đây là câu cá. Nếu bạn muốn xác thực một mô hình, thì bạn sẽ tìm ra cách. Nếu bạn muốn vô hiệu hóa nó, thì bạn sẽ tìm ra cách. Chìa khóa là có một tâm hồn cởi mở và tìm ra sự thật - không chỉ xem những gì bạn muốn thấy.