Câu hỏi của tôi là về xác nhận chéo khi có nhiều biến hơn so với quan sát. Để khắc phục ý tưởng, tôi đề xuất hạn chế khung phân loại ở chiều rất cao (nhiều tính năng hơn quan sát).
Vấn đề: Giả sử rằng với mỗi biến bạn có thước đo mức độ quan trọng hơn là đo chính xác mức độ quan tâm của tính năng đối với vấn đề phân loại. Vấn đề chọn một tập hợp con của tính năng để giảm tối ưu lỗi phân loại sau đó được giảm xuống thành vấn đề tìm số lượng tính năng.
Câu hỏi: Cách hiệu quả nhất để chạy xác nhận chéo trong trường hợp này (sơ đồ xác thực chéo) là gì? Câu hỏi của tôi không phải là về cách viết mã mà là phiên bản xác thực chéo để sử dụng khi cố gắng tìm số lượng tính năng được chọn (để giảm thiểu lỗi phân loại) mà là cách xử lý kích thước cao khi thực hiện xác thực chéo (do đó vấn đề ở trên có thể hơi giống với "vấn đề đồ chơi" để thảo luận về CV ở chiều cao).
Ký hiệu: là kích thước của bộ học tập, p số lượng tính năng (tức là kích thước của không gian tính năng). Theo kích thước rất cao, ý tôi là p >> n (ví dụ và ).