Chỉ cần thêm một chút vào câu trả lời của @SubravetiSuraj (+1)
Xác nhận chéo đưa ra ước tính hiệu suất thiên vị bi quan bởi vì hầu hết các mô hình thống kê sẽ cải thiện nếu tập huấn luyện được làm lớn hơn. Điều này có nghĩa là xác thực chéo k-ước tính hiệu suất của một mô hình được đào tạo trên bộ dữ liệu 100 * (k-1) / k% dữ liệu có sẵn, thay vì 100%. Vì vậy, nếu bạn thực hiện xác thực chéo để ước tính hiệu suất và sau đó sử dụng mô hình được đào tạo trên tất cả dữ liệu để sử dụng hoạt động, nó sẽ hoạt động tốt hơn một chút so với ước tính xác thực chéo cho thấy.
Xác thực chéo một lần là xấp xỉ không thiên vị , bởi vì sự khác biệt về kích thước giữa tập huấn luyện được sử dụng trong mỗi lần gấp và toàn bộ tập dữ liệu chỉ là một mẫu duy nhất. Có một bài viết về điều này của Luntz và Brailovsky (bằng tiếng Nga).
Luntz, Aleksandr và Viktor Brailovsky. "Về ước tính các ký tự thu được trong thủ tục thống kê công nhận." Technicheskaya Kibernetica 3.6 (1969): 6-12.
Xem thêm
Ước tính tỷ lệ lỗi trong phân tích phân biệt đối xử Peter A. Lachenbruch và M. Ray Mickey Technometrics Vol. 10, Vấn đề. 1.1968
Tuy nhiên, trong khi xác thực chéo một lần gần như không thiên vị, nó có xu hướng có phương sai cao (vì vậy bạn sẽ nhận được các ước tính rất khác nhau nếu bạn lặp lại ước tính với các mẫu dữ liệu ban đầu khác nhau từ cùng một phân phối). Vì lỗi của công cụ ước tính là sự kết hợp giữa sai lệch và phương sai, nên việc xác thực chéo một lần có tốt hơn xác thực chéo 10 lần hay không phụ thuộc vào cả hai đại lượng.
Bây giờ phương sai trong việc lắp mô hình có xu hướng cao hơn nếu nó được gắn vào một tập dữ liệu nhỏ (vì nó nhạy hơn với bất kỳ tạo tác nhiễu / lấy mẫu nào trong mẫu đào tạo cụ thể được sử dụng). Điều này có nghĩa là xác thực chéo 10 lần có thể có phương sai cao (cũng như độ lệch cao hơn) nếu bạn chỉ có một lượng dữ liệu hạn chế, vì kích thước của tập huấn luyện sẽ nhỏ hơn so với LOOCV. Vì vậy, xác thực chéo k-Fold cũng có thể có các vấn đề về phương sai, nhưng vì một lý do khác. Đây là lý do tại sao LOOCV thường tốt hơn khi kích thước của tập dữ liệu nhỏ.
Tuy nhiên, lý do chính cho việc sử dụng LOOCV theo ý kiến của tôi là vì nó không tốn kém về mặt tính toán đối với một số mô hình (như hồi quy tuyến tính, hầu hết các phương thức kernel, phân loại lân cận gần nhất, v.v.) và trừ khi tập dữ liệu rất nhỏ, tôi sẽ sử dụng Xác thực chéo 10 lần nếu nó phù hợp với ngân sách tính toán của tôi, hoặc tốt hơn là, ước tính bootstrap và đóng gói.