Khi sử dụng CV gấp để chọn trong số các mô hình hồi quy, tôi thường tính riêng lỗi CV cho từng mô hình, cùng với lỗi tiêu chuẩn SE và tôi chọn mô hình đơn giản nhất trong vòng 1 SE của mô hình có lỗi CV thấp nhất (1 quy tắc lỗi tiêu chuẩn, xem ví dụ ở đây ). Tuy nhiên, gần đây tôi đã được thông báo rằng theo cách này, tôi đánh giá quá cao tính biến thiên và trong trường hợp cụ thể chọn giữa hai mô hình A và B, tôi thực sự nên tiến hành theo một cách khác:
- với mỗi nếp gấp có độ dài , hãy tính toán sự khác biệt theo chiều dọc giữa hai dự đoán mô hình. Sau đó, tính độ lệch bình phương trung bình cho nếp gấp
- trung bình trên các nếp gấp như bình thường và sử dụng lỗi chênh lệch CV này (cùng với lỗi tiêu chuẩn của nó) làm công cụ ước tính cho lỗi tổng quát hóa.
Câu hỏi:
- Điều này có ý nghĩa gì với bạn hay không? Tôi biết có những lý do lý thuyết đằng sau việc sử dụng lỗi CV làm công cụ ước tính lỗi tổng quát hóa (tôi không biết đó là những lý do nào, nhưng tôi biết chúng tồn tại!). Tôi không biết có lý do lý thuyết nào đằng sau việc sử dụng lỗi CV "khác biệt" này không.
- Tôi không biết nếu điều này có thể được khái quát để so sánh của hơn hai mô hình. Tính toán sự khác biệt cho tất cả các cặp mô hình có vẻ rủi ro (nhiều so sánh?): Bạn sẽ làm gì nếu bạn có nhiều hơn hai mô hình?
EDIT: công thức của tôi hoàn toàn sai, số liệu chính xác được mô tả ở đây và nó phức tạp hơn nhiều. Chà, tôi rất vui vì đã hỏi ở đây trước khi áp dụng công thức một cách mù quáng! Tôi cảm ơn @Bay vì đã giúp tôi hiểu với câu trả lời sáng ngời của anh ấy. Các biện pháp chính xác được mô tả là khá thử nghiệm, vì vậy tôi sẽ dính vào con ngựa làm việc đáng tin cậy của tôi, lỗi CV!