Gần đây tôi đã bắt gặp một bài báo đề xuất sử dụng trình phân loại k-NN trên một tập dữ liệu cụ thể. Các tác giả đã sử dụng tất cả các mẫu dữ liệu có sẵn để thực hiện xác thực chéo k cho các giá trị k khác nhau và báo cáo kết quả xác thực chéo của cấu hình siêu tham số tốt nhất.
Theo hiểu biết của tôi, kết quả này là sai lệch và họ nên giữ lại một bộ kiểm tra riêng để có được ước tính chính xác cho các mẫu không được sử dụng để thực hiện tối ưu hóa siêu tham số.
Tôi có đúng không Bạn có thể cung cấp một số tài liệu tham khảo (tốt nhất là các tài liệu nghiên cứu) mô tả việc lạm dụng xác nhận chéo này không?