Một phân biệt quan trọng là bạn có muốn:
- [Trường hợp phổ biến nhất]: Xây dựng ước tính hiệu suất trên các đối tượng mới (được rút ra từ cùng một dân số với dữ liệu của bạn).
- Xây dựng ước tính hiệu suất trên các quan sát mới từ cùng một đối tượng như trong mẫu của bạn.
Trường hợp phổ biến hơn nhiều là trường hợp số (1). Ví dụ, bạn dự đoán cơn đau tim cho người sắp vào phòng cấp cứu tốt đến mức nào? Và nếu bạn ở trong trường hợp (1), bạn gần như chắc chắn nên thực hiện (a) xác thực chéo theo chủ đề thay vì (b) xác thực chéo theo kỷ lục. Thực hiện xác nhận kỷ lục trong trường hợp (1) có thể sẽ dẫn đến ước tính hiệu suất cao, không có thật về các đối tượng mới.
Tôi không hiểu chính xác những gì bạn đang cố gắng làm (và có lẽ đó là tự học nên câu hỏi không hoàn toàn thực tế). Tôi không biết bạn đang ở trường hợp nào. Nếu bạn ở trong trường hợp ít phổ biến hơn (2), ghi lại xác nhận khôn ngoan có thể ổn.
Một chủ đề chung trong thống kê là suy nghĩ cẩn thận về những gì độc lập và những gì tương quan. Nói chung, một quan sát độc lập có xu hướng là một chủ đề khác nhau. Nếu bạn muốn dự đoán hiệu suất về các môn học mới , bạn phải kiểm tra các môn học mà bạn không đào tạo!
Tại sao xác thực chéo chủ đề khôn ngoan hơn là ghi lại khôn ngoan?
Trong cài đặt điển hình, các quan sát lặp đi lặp lại của cùng một cá nhân có tương quan với nhau ngay cả sau khi điều chỉnh các tính năng. Do đó với xác thực chéo khôn ngoan, bộ kiểm tra của bạn không độc lập với tập huấn luyện của bạn! Trong trường hợp cực đoan của mối tương quan hoàn hảo, bạn sẽ có những quan sát chính xác giống nhau trong tập huấn luyện và tập kiểm tra! Bạn sẽ được đào tạo về bộ thử nghiệm! Hiệu suất được đo trong xác nhận chéo sẽ không thể dự đoán hiệu suất trên các đối tượng mới.
Ví dụ, bài báo gần đây gọi xác nhận chéo thông minh kỷ lục, '`Voodoo Machine Learning."
Phải làm gì với rất ít môn học ...
Có lẽ một số người bình luận có nhiều kinh nghiệm với xác nhận chéo hơn tôi có thể tham gia, nhưng với tôi, đây có vẻ là một ứng cử viên khả thi cho k=n
Để tối đa hóa dữ liệu cho đào tạo, điều bạn có thể làm là bỏ qua một chủ đề để xác thực chéo. Mỗi lần lặp, kiểm tra về một chủ đề khác nhau và đào tạo về tất cả những người khác.
n=38