Tôi nghĩ rằng câu trả lời hiện đang được chấp nhận là không đầy đủ theo một cách không may. Tôi không đồng ý với câu
Mục đích của xác nhận chéo là để xác định các tham số học tập khái quát tốt trên các mẫu dân số mà chúng ta học được từ mỗi lần.
Đây thực sự là một ứng dụng rất quan trọng của xác nhận chéo, nhưng không phải là ứng dụng duy nhất. Thông thường, bạn muốn làm hai điều:
- Xây dựng mô hình tốt nhất bạn có thể
- Có một ấn tượng chính xác về hiệu suất của nó
Bây giờ, để hoàn thành mục tiêu 1 tùy thuộc vào thuật toán của bạn, bạn có thể cần điều chỉnh một số siêu đường kính và điều này thực sự thường được thực hiện bằng xác nhận chéo. Nhưng điều này vẫn chưa giúp bạn với mục tiêu 2. Đối với điều này, về cơ bản bạn cần lồng xác thực chéo, như thế này:
- Phân chia toàn bộ dữ liệu thành n lần
- Đối với mỗi, hãy tách dữ liệu đào tạo lại thành các tệp con
- Sử dụng xác nhận chéo trên các tệp con để tìm hiểu các siêu đường kính tốt
- Với các siêu tham số này, xây dựng một mô hình về dữ liệu huấn luyện của nếp gấp đó
- Kiểm tra mô hình trên dữ liệu thử nghiệm
- Lặp lại ở lần tiếp theo
Để xây dựng một mô hình tốt, bạn chỉ cần xác nhận chéo bên trong. Bạn vẫn sẽ cần phải làm như vậy để có được một mô hình tốt. Nhưng để có được ước tính tốt về hiệu suất mô hình của bạn, bạn cần thực hiện toàn bộ quá trình xây dựng mô hình bên trong sơ đồ xác thực chéo. Điều này cũng bao gồm các bước như cắt cụt, vv