Lạm dụng xác thực chéo (hiệu suất báo cáo cho giá trị siêu tham số tốt nhất)

Gần đây tôi đã bắt gặp một bài báo đề xuất sử dụng trình phân loại k-NN trên một tập dữ liệu cụ thể. Các tác giả đã sử dụng tất cả các mẫu dữ liệu có sẵn để thực hiện xác thực chéo k cho các giá trị k khác nhau và báo cáo kết quả xác thực chéo của cấu hình siêu tham số tốt nhất.

Theo hiểu biết của tôi, kết quả này là sai lệch và họ nên giữ lại một bộ kiểm tra riêng để có được ước tính chính xác cho các mẫu không được sử dụng để thực hiện tối ưu hóa siêu tham số.

Tôi có đúng không Bạn có thể cung cấp một số tài liệu tham khảo (tốt nhất là các tài liệu nghiên cứu) mô tả việc lạm dụng xác nhận chéo này không?

— Daniel López
nguồn

Lưu ý rằng thay vì một bộ kiểm tra riêng biệt, người ta có thể sử dụng cái gọi là xác thực chéo lồng nhau . Nếu bạn tìm kiếm thuật ngữ này trên trang web này, bạn sẽ tìm thấy rất nhiều cuộc thảo luận. Đặc biệt hãy tìm câu trả lời của @DikranMarsupial , một trong những tác giả của bài báo thứ hai được trích dẫn trong câu trả lời được chấp nhận.

— amip nói rằng Phục hồi lại

Có, có vấn đề với việc chỉ báo cáo kết quả CV gấp. Bạn có thể sử dụng, ví dụ ba ấn phẩm sau đây cho mục đích của bạn (mặc dù có nhiều hơn ở ngoài đó, tất nhiên) để hướng mọi người đi đúng hướng:

Cá nhân tôi thích những điều đó bởi vì họ cố gắng nêu các vấn đề bằng tiếng Anh đơn giản hơn là môn Toán.

— geekoverdose
nguồn

Chính xác hơn, vấn đề không phải là báo cáo kết quả xác thực chéo, mà là báo cáo ước tính hiệu suất đã là một phần của quá trình lựa chọn / tối ưu hóa.

— cbeleites hỗ trợ Monica

Cũng lưu ý rằng bài báo của Bengio & Grandvalet có phần ít liên quan hơn nếu vấn đề ở đây là hiệu suất của một mô hình cụ thể được đào tạo trên một tập dữ liệu cụ thể - họ thảo luận về hiệu suất cho cùng một thuật toán trainig áp dụng cho các tập dữ liệu mới từ cùng một dân số (cần để bao gồm phương sai giữa các tập dữ liệu khác nhau có cùng kích thước được lấy mẫu từ cùng một nguồn - đó không phải là vấn đề nếu chúng ta đang nói về hiệu suất dự đoán của một mô hình được đào tạo trên một tập dữ liệu cụ thể).

— cbeleites hỗ trợ Monica

@cbeleites Phát hiện chính xác: trong bản thảo câu trả lời đầu tiên của tôi, tôi đã vô tình chọn tham chiếu thứ ba thay vì tham chiếu thứ hai, nhưng sau đó không muốn xóa bất kỳ thông tin nào khỏi câu trả lời đã được chấp nhận nữa - đó là lý do tại sao tôi đã thêm câu thứ hai vào giữa (xem phiên bản của câu trả lời). Tuy nhiên, tôi nghĩ rằng câu hỏi chủ yếu xoay quanh lỗi được báo cáo và những bài báo đó chỉ ra một số điều mà người ta có thể làm sai với CV về vấn đề này rất tốt IMHO.

— geekoverdose