Có phải luôn luôn là một ý tưởng tốt để đào tạo với bộ dữ liệu đầy đủ sau khi xác thực chéo ? Nói cách khác, là nó ok để đào tạo với tất cả các mẫu trong tập dữ liệu của tôi và không có khả năng để kiểm tra xem đặc biệt phù hợp này overfits ?
Một số nền tảng về vấn đề:
Giả sử tôi có một gia đình người mẫu được tham số hóa bởi . Cũng nói rằng tôi có một tập hợp các điểm dữ liệu và tôi thực hiện lựa chọn mô hình với xác thực chéo k-gấp để chọn mô hình tổng quát hóa dữ liệu tốt nhất.
Để chọn mô hình, tôi có thể thực hiện tìm kiếm (ví dụ: tìm kiếm dạng lưới) trên , ví dụ: chạy xác thực chéo k-Fold cho mỗi ứng cử viên. Trong mỗi lần xác thực chéo, tôi kết thúc với mô hình đã học .
Điểm của việc xác thực chéo là ở mỗi nếp gấp này, tôi có thể kiểm tra xem mô hình đã học có quá phù hợp hay không, bằng cách kiểm tra nó trên "dữ liệu không nhìn thấy". Tùy thuộc vào kết quả, tôi có thể chọn mô hình đã học cho các tham số mà khái quát nhất trong quá trình xác thực chéo trong tìm kiếm lưới.
Bây giờ, nói rằng sau khi chọn mô hình , tôi muốn sử dụng tất cả các điểm trong tập dữ liệu của mình và hy vọng tìm hiểu một mô hình tốt hơn. Để làm điều này, tôi có thể sử dụng các tham số tương ứng với mô hình mà tôi đã chọn trong quá trình chọn mô hình và sau đó, sau khi đào tạo về bộ dữ liệu đầy đủ, tôi sẽ có được một mô hình đã học mới . Vấn đề là, nếu tôi sử dụng tất cả các điểm trong tập dữ liệu của tôi cho đào tạo, tôi không thể kiểm tra nếu mới học được mô hình này overfits trên bất kỳ dữ liệu vô hình. Cách đúng đắn để suy nghĩ xung quanh vấn đề này là gì?