Không phải tất cả các quy trình thống kê được chia thành dữ liệu huấn luyện / kiểm tra, còn được gọi là "xác thực chéo" (mặc dù toàn bộ quy trình liên quan nhiều hơn thế một chút).
Thay vào đó, đây là một kỹ thuật được sử dụng cụ thể để ước tính lỗi ngoài mẫu ; tức là mô hình của bạn sẽ dự đoán kết quả mới như thế nào bằng cách sử dụng bộ dữ liệu mới? Điều này trở thành một vấn đề rất quan trọng khi bạn có, ví dụ, một số lượng rất lớn các dự đoán liên quan đến số lượng mẫu trong tập dữ liệu của bạn. Trong những trường hợp như vậy, thực sự dễ dàng để xây dựng một mô hình có lỗi in-sample tuyệt vời nhưng lỗi rất lớn (gọi là "over fit"). Trong trường hợp bạn có cả số lượng lớn các yếu tố dự đoán và số lượng mẫu lớn, xác thực chéo là một công cụ cần thiết để giúp đánh giá mô hình sẽ hoạt động tốt như thế nào khi dự đoán trên dữ liệu mới. Đây cũng là một công cụ quan trọng khi lựa chọn giữa các mô hình dự đoán cạnh tranh.
Một lưu ý khác, xác thực chéo hầu như chỉ được sử dụng khi cố gắng xây dựng một mô hình dự đoán . Nói chung, nó không hữu ích cho các mô hình khi bạn đang cố gắng ước tính hiệu quả của một số điều trị. Ví dụ, nếu bạn đang so sánh sự phân bố độ bền kéo giữa các vật liệu A và B ("xử lý" là loại vật liệu), thì việc xác nhận chéo sẽ không cần thiết; trong khi chúng tôi hy vọng rằng ước tính của chúng ta về hiệu quả điều trị khái quát ra khỏi mẫu, đối với hầu hết các vấn đề lý thuyết thống kê cổ điển có thể trả lời này (tức là "sai số chuẩn" dự toán) hơn chính xác hơn cross-validation. Thật không may, phương pháp thống kê cổ điển 1đối với các lỗi tiêu chuẩn không giữ được trong trường hợp quá mức. Xác nhận chéo thường làm tốt hơn nhiều trong trường hợp đó.
Mặt khác, nếu bạn đang cố gắng dự đoán khi nào một tài liệu sẽ phá vỡ dựa trên 10.000 biến đo lường mà bạn đưa vào một số mô hình học máy dựa trên 100.000 quan sát, bạn sẽ gặp nhiều khó khăn khi xây dựng một mô hình tuyệt vời mà không có xác nhận chéo!
Tôi đoán trong rất nhiều thí nghiệm vật lý được thực hiện, bạn thường quan tâm đến việc ước tính hiệu ứng. Trong những trường hợp đó, có rất ít nhu cầu xác nhận chéo.
1 Người ta có thể lập luận rằng các phương pháp Bayes với các linh mục thông tin là một phương pháp thống kê cổ điển nhằm giải quyết vấn đề quá mức. Nhưng đó là một cuộc thảo luận khác.
Lưu ý bên lề: mặc dù việc xác thực chéo lần đầu tiên xuất hiện trong tài liệu thống kê và chắc chắn được sử dụng bởi những người tự gọi mình là thống kê, nó trở thành một công cụ bắt buộc cơ bản trong cộng đồng học máy. Rất nhiều mô hình thống kê sẽ hoạt động tốt mà không cần sử dụng xác thực chéo, nhưng hầu như tất cả các mô hình được coi là "mô hình dự đoán học máy" đều cần xác thực chéo, vì chúng thường yêu cầu lựa chọn các tham số điều chỉnh, gần như không thể thực hiện được nếu không có chéo -Thẩm định.