Đầu tiên hãy để tôi nói rõ các thuật ngữ được sử dụng trong câu hỏi khi tôi hiểu. Chúng tôi thường bắt đầu với một tập dữ liệu huấn luyện, sử dụng xác thực chéo k-gấp để kiểm tra các mô hình khác nhau (hoặc bộ siêu đường kính) và chọn mô hình tốt nhất có lỗi CV thấp nhất. Vì vậy, 'ước tính xác thực chéo của lỗi kiểm tra' có nghĩa là sử dụng lỗi CV thấp nhất làm lỗi kiểm tra, không chỉ là lỗi CV của một mô hình ngẫu nhiên (mà trường hợp được thảo luận bởi cbeleites, nhưng đó không phải là điều chúng ta thường làm.). 'Lỗi kiểm tra thực tế' trong câu hỏi là lỗi chúng tôi nhận được khi áp dụng mô hình CV tốt nhất cho tập dữ liệu kiểm tra vô hạn, giả sử chúng tôi có thể nhận được điều đó. Lỗi CV phụ thuộc vào tập dữ liệu cụ thể mà chúng tôi có và lỗi kiểm tra thực tế phụ thuộc vào mô hình CV tốt nhất được chọn, điều này cũng phụ thuộc vào tập dữ liệu huấn luyện. Vì vậy, sự khác biệt giữa lỗi CV và lỗi kiểm tra phụ thuộc vào các bộ dữ liệu đào tạo khác nhau. Sau đó, câu hỏi trở thành, nếu chúng ta lặp lại quá trình trên nhiều lần với các bộ dữ liệu đào tạo khác nhau và trung bình hai lỗi tương ứng, tại sao lỗi CV trung bình thấp hơn lỗi kiểm tra trung bình, tức là lỗi CV bị sai lệch? Nhưng trước đó, điều này luôn xảy ra?
Thông thường không thể có được nhiều tập dữ liệu huấn luyện và tập dữ liệu kiểm tra có chứa các hàng vô hạn. Nhưng có thể làm như vậy bằng cách sử dụng dữ liệu được tạo ra bởi mô phỏng. Trong "chương 7 Đánh giá và lựa chọn mô hình" của cuốn sách "Các yếu tố của học thống kê" của Trevor Hastie, et al. , nó bao gồm các thí nghiệm mô phỏng như vậy.
Kết luận là, sử dụng CV hoặc bootstrap, "... ước tính lỗi kiểm tra cho một tập huấn luyện cụ thể nói chung là không dễ dàng, chỉ được cung cấp dữ liệu từ cùng một tập huấn luyện đó". "Không dễ", điều đó có nghĩa là lỗi CV có thể được đánh giá thấp hoặc đánh giá quá cao lỗi kiểm tra thực sự tùy thuộc vào các tập dữ liệu đào tạo khác nhau, tức là phương sai gây ra bởi các bộ dữ liệu đào tạo khác nhau là khá lớn. Làm thế nào về thiên vị? Mô hình kNN và mô hình tuyến tính mà họ đã kiểm tra gần như không sai lệch: Lỗi CV đánh giá quá cao lỗi thử nghiệm thực sự bằng 0-4%, nhưng một số mô hình "như cây, xác thực chéo và dây đeo khởi động có thể đánh giá thấp sai số thực 10%, bởi vì tìm kiếm cây tốt nhất bị ảnh hưởng mạnh mẽ bởi bộ xác nhận ".
Tóm lại, đối với một tập dữ liệu huấn luyện cụ thể, lỗi CV có thể cao hơn hoặc thấp hơn lỗi kiểm tra thực. Đối với sai lệch, lỗi CV trung bình có thể dao động từ cao hơn một chút đến thấp hơn nhiều so với lỗi kiểm tra thực sự trung bình tùy thuộc vào các phương pháp mô hình hóa.
Lý do cho sự đánh giá thấp, như đã đề cập ở trên, là việc lựa chọn các siêu đường kính cho mô hình tốt nhất cuối cùng phụ thuộc vào tập dữ liệu đào tạo cụ thể mà chúng tôi nhận được. Một chi tiết nhỏ, Hãy để siêu âm tốt nhất là M1 trong tập dữ liệu đào tạo cụ thể này. Nhưng, M1 có thể không phải là siêu âm tốt nhất trên tập dữ liệu đào tạo khác, điều đó có nghĩa là lỗi CV tối thiểu nhỏ hơn lỗi CV từ M1. Do đó, lỗi CV dự kiến chúng tôi nhận được từ quá trình đào tạo rất có thể ít hơn so với lỗi CV dự kiến của M1. Lần duy nhất lỗi CV tối thiểu từ một tập dữ liệu đào tạo cụ thể không bị sai lệch là khi mô hình tốt nhất luôn độc lập tốt nhất với bộ dữ liệu đào tạo. Mặt khác, lỗi CV cũng có thể đánh giá hơi cao lỗi thử nghiệm thực sự, như được thảo luận bởi cbeleites. Điều này là do lỗi k gấp CV có được bằng cách sử dụng dữ liệu huấn luyện ít hơn một chút để huấn luyện mô hình (đối với cv 10 lần, sử dụng 90% dữ liệu), nó bị sai lệch so với lỗi thực, nhưng không nhiều. Vì vậy, có hai xu hướng đi khác nhau. Đối với phương pháp mô hình hóa có xu hướng quá phù hợp, sử dụng CV ít hơn, ví dụ 5 lần so với 10 lần, có thể dẫn đến ít sai lệch.
Tất cả đều được nói, nó không giúp ích quá nhiều trong thực tế: chúng ta thường chỉ nhận được một bộ dữ liệu 'cụ thể'. nếu chúng tôi giữ 15% đến 30% làm dữ liệu thử nghiệm và chọn mô hình tốt nhất bằng CV trên phần còn lại làm dữ liệu đào tạo, rất có thể lỗi CV sẽ khác với lỗi thử nghiệm vì cả hai đều khác với lỗi thử nghiệm dự kiến. Chúng tôi có thể nghi ngờ nếu lỗi CV thấp hơn nhiều so với lỗi kiểm tra, nhưng chúng tôi sẽ không biết lỗi nào gần với lỗi kiểm tra thực hơn. Thực tiễn tốt nhất có thể chỉ là trình bày cả hai số liệu.