Ý tưởng của phân tích dữ liệu thích ứng là bạn thay đổi kế hoạch phân tích dữ liệu khi bạn tìm hiểu thêm về nó. Trong trường hợp phân tích dữ liệu thăm dò (EDA), đây thường là một ý tưởng tốt (bạn thường tìm kiếm các mẫu không lường trước được trong dữ liệu), nhưng đối với một nghiên cứu xác nhận, điều này được chấp nhận rộng rãi như một phương pháp phân tích rất thiếu sót (trừ khi tất cả các bước được xác định rõ ràng và được lên kế hoạch đúng đắn trong nâng cao).
Điều đó được cho biết, phân tích dữ liệu thích nghi là thường có bao nhiêu nhà nghiên cứu thực sự tiến hành các phân tích của họ, ngỡ ngàng của nhà thống kê. Như vậy, nếu một người có thể làm điều này theo cách hợp lệ thống kê, nó sẽ cách mạng hóa thực tiễn thống kê.
Bài báo Khoa học sau đây tuyên bố đã tìm ra một phương pháp để thực hiện điều đó (tôi xin lỗi về paywall, nhưng nếu bạn đang ở trường đại học, bạn có thể có quyền truy cập): Dwork et al, 2015, Việc giữ lại có thể tái sử dụng: Giữ nguyên tính hợp lệ trong phân tích dữ liệu thích ứng .
Cá nhân tôi, tôi luôn hoài nghi về các bài báo thống kê được xuất bản trên Science , và bài này cũng không khác. Trong thực tế, sau khi đọc qua bài viết hai lần, bao gồm cả tài liệu bổ sung, tôi không thể hiểu (tất cả) lý do tại sao các tác giả cho rằng phương pháp của họ ngăn chặn sự phù hợp quá mức.
Hiểu biết của tôi là họ có một bộ dữ liệu nắm giữ, mà họ sẽ sử dụng lại. Họ dường như tuyên bố bằng cách "làm mờ" đầu ra của phân tích xác nhận trên tập dữ liệu nắm giữ, việc điều chỉnh quá mức sẽ bị ngăn chặn (điều đáng chú ý là việc làm mờ dường như chỉ thêm tiếng ồn nếu thống kê được tính toán trên dữ liệu đào tạo là đủ xa từ thống kê tính toán trên dữ liệu nắm giữ ). Theo như tôi có thể nói, không có lý do thực sự nào để ngăn chặn sự phù hợp quá mức này.
Tôi có nhầm lẫn về những gì các tác giả đang đề xuất? Có một số hiệu ứng tinh tế mà tôi đang xem? Hay Khoa học đã chứng thực thực tiễn thống kê tồi tệ nhất cho đến nay?