Tôi đã nghe các biểu hiện sau đây:
"Tối ưu hóa là gốc rễ của mọi tội lỗi trong thống kê".
Ví dụ, câu trả lời hàng đầu trong chủ đề này làm cho tuyên bố đó liên quan đến nguy cơ tối ưu hóa quá mạnh mẽ trong quá trình lựa chọn mô hình.
Câu hỏi đầu tiên của tôi là như sau: Câu nói này có được quy cho bất kỳ ai nói riêng không? (ví dụ trong tài liệu thống kê)
Từ những gì tôi hiểu, tuyên bố đề cập đến những rủi ro của việc quá mức. Sự khôn ngoan truyền thống sẽ nói rằng xác nhận chéo thích hợp đã chiến đấu chống lại vấn đề này, nhưng có vẻ như có nhiều vấn đề hơn thế.
Các nhà thống kê & các học viên ML có nên cảnh giác với việc tối ưu hóa quá mức các mô hình của họ ngay cả khi tuân thủ các giao thức xác thực chéo nghiêm ngặt (ví dụ 100 CV 10 lần lồng nhau)? Nếu vậy, làm thế nào để chúng ta biết khi nào ngừng tìm kiếm mô hình "tốt nhất"?