Bộ kiểm tra và xác thực chéo có các mục đích khác nhau. Nếu bạn bỏ một trong hai, bạn sẽ mất lợi ích của nó:
Bạn không thể sử dụng bộ xác thực chéo để đo chính xác hiệu suất của mô hình của mình, vì bạn sẽ cố tình điều chỉnh kết quả của mình để có được số liệu tốt nhất có thể, qua hàng trăm biến thể của các tham số. Do đó, kết quả xác nhận chéo có thể quá lạc quan.
Vì lý do tương tự, bạn không thể bỏ tập xác thực chéo và sử dụng bộ kiểm tra để chọn siêu tham số, bởi vì sau đó bạn được đảm bảo khá nhiều để đánh giá quá cao mô hình của bạn tốt như thế nào. Trong thế giới lý tưởng, bạn sử dụng bộ thử nghiệm chỉ một lần hoặc sử dụng nó theo kiểu "trung tính" để so sánh các thử nghiệm khác nhau.
Nếu bạn xác thực chéo, tìm mô hình tốt nhất, sau đó thêm vào dữ liệu thử nghiệm để đào tạo, có thể (và trong một số trường hợp có thể rất có thể) mô hình của bạn sẽ được cải thiện. Tuy nhiên, bạn không có cách nào để chắc chắn liệu điều đó có thực sự xảy ra hay không, và ngay cả khi nó có, bạn không có bất kỳ ước tính khách quan nào về hiệu suất mới là gì.
Từ việc chứng kiến nhiều cuộc thi Kaggle, kinh nghiệm của tôi là điều chỉnh bài kiểm tra bằng cách sử dụng quá mức nó là một điều có thật, và nó tác động đến những cuộc thi đó theo một cách rộng lớn. Thường có một nhóm các đối thủ cạnh tranh đã leo lên bảng xếp hạng công khai và chọn mô hình tốt nhất của họ trong thử nghiệm (bảng xếp hạng công khai thực sự là một bộ thử nghiệm), trong khi không quá kỹ lưỡng về xác nhận chéo của họ. . . những đối thủ này rơi xuống bảng xếp hạng khi một bộ thử nghiệm mới được giới thiệu ở cuối.
Một cách tiếp cận hợp lý là sử dụng lại dữ liệu (train + cv) để đào tạo lại bằng cách sử dụng siêu thông số bạn đã tìm thấy trước khi thử nghiệm. Bằng cách đó, bạn có thể đào tạo được nhiều dữ liệu hơn và cuối cùng bạn vẫn có được một thước đo độc lập về hiệu suất.
Nếu bạn muốn nhận được nhiều hơn từ xác thực chéo, cách tiếp cận thông thường là xác thực chéo k-Fold . Một mẹo phổ biến trong các cuộc thi Kaggle là sử dụng xác thực chéo k-gấp và thay vì kết hợp lại dữ liệu thành một tập huấn luyện (tàu + cv) lớn hơn, để tập hợp hoặc xếp kết quả cv thành mô hình meta.
Cuối cùng, luôn kiểm tra xem các phần tách của bạn để xác thực và kiểm tra có mạnh mẽ đối với mối tương quan có thể có trong tập dữ liệu của bạn không.