Trong bài viết Lựa chọn mô hình tuyến tính bằng cách xác thực chéo , Jun Shao cho thấy rằng đối với vấn đề lựa chọn biến trong hồi quy tuyến tính đa biến, phương pháp xác thực chéo một lần (LOOCV) là 'không nhất quán'. Trong tiếng Anh đơn giản, nó có xu hướng chọn các mô hình có quá nhiều biến. Trong một nghiên cứu mô phỏng, Shao chỉ ra rằng thậm chí chỉ với 40 quan sát, LOOCV có thể hoạt động kém hơn các kỹ thuật xác nhận chéo khác.
Bài viết này có phần gây tranh cãi và có phần bị bỏ qua (10 năm sau khi xuất bản, các đồng nghiệp hóa học của tôi chưa bao giờ nghe về nó và vui vẻ sử dụng LOOCV để lựa chọn biến ...). Cũng có một niềm tin (tôi có tội về điều này), rằng kết quả của nó mở rộng ra ngoài phạm vi giới hạn ban đầu.
Câu hỏi, sau đó: những kết quả này kéo dài bao xa? Chúng có áp dụng cho các vấn đề sau không?
- Lựa chọn biến cho hồi quy logistic / GLM?
- Lựa chọn biến để phân loại Fisher LDA?
- Lựa chọn biến bằng cách sử dụng SVM với không gian nhân hữu hạn (hoặc vô hạn)?
- So sánh các mô hình trong phân loại, nói SVM sử dụng các hạt nhân khác nhau?
- So sánh các mô hình trong hồi quy tuyến tính, nói so sánh MLR với hồi quy Ridge?
- v.v.