Trong một số bài giảng và hướng dẫn tôi đã thấy, họ đề nghị chia dữ liệu của bạn thành ba phần: đào tạo, xác nhận và kiểm tra. Nhưng không rõ làm thế nào để sử dụng tập dữ liệu thử nghiệm, cũng như cách tiếp cận này tốt hơn so với xác thực chéo trên toàn bộ tập dữ liệu.
Giả sử chúng tôi đã lưu 20% dữ liệu của mình dưới dạng thử nghiệm. Sau đó, chúng tôi lấy phần còn lại, chia nó thành k nếp gấp và bằng cách sử dụng xác thực chéo, chúng tôi tìm thấy mô hình đưa ra dự đoán tốt nhất về dữ liệu chưa biết từ bộ dữ liệu này. Giả sử mô hình tốt nhất mà chúng tôi đã tìm thấy mang lại cho chúng tôi độ chính xác 75% .
Nhiều hướng dẫn và rất nhiều câu hỏi trên các trang web Hỏi & Đáp khác nhau nói rằng bây giờ chúng tôi có thể xác minh mô hình của mình trên bộ dữ liệu đã được lưu (kiểm tra). Nhưng tôi vẫn không thể hiểu chính xác nó được thực hiện như thế nào, cũng không phải là điểm của nó.
Giả sử chúng tôi có độ chính xác 70% trên tập dữ liệu thử nghiệm. Vậy chúng ta phải làm gì tiếp theo? Chúng ta có thử một mô hình khác, và sau đó là một mô hình khác, cho đến khi chúng ta sẽ đạt được điểm cao trong bộ dữ liệu thử nghiệm của mình không? Nhưng trong trường hợp này, có vẻ như chúng ta sẽ tìm thấy mô hình phù hợp với bộ thử nghiệm giới hạn (chỉ 20%) của chúng ta . Điều đó không có nghĩa là chúng ta sẽ tìm thấy mô hình tốt nhất nói chung.
Hơn nữa, làm thế nào chúng ta có thể coi điểm này là một đánh giá chung của mô hình, nếu nó chỉ được tính trên một tập dữ liệu hạn chế? Nếu điểm này thấp, có thể chúng tôi đã không may mắn và chọn dữ liệu kiểm tra "xấu".
Mặt khác, nếu chúng ta sử dụng tất cả dữ liệu chúng ta có và sau đó chọn mô hình sử dụng xác thực chéo k-Fold, chúng ta sẽ tìm thấy mô hình đưa ra dự đoán tốt nhất về dữ liệu chưa biết từ toàn bộ tập dữ liệu chúng ta có.