Cả LASSO và lựa chọn mô hình tiến / lùi đều có điểm mạnh và hạn chế. Không có khuyến nghị sâu rộng có thể được thực hiện. Mô phỏng luôn có thể được khám phá để giải quyết điều này.
pnp≫n
Quá mức được khắc phục bằng cách sử dụng xác nhận chéo mẫu (CV) để đánh giá mô hình. Vì bạn không mô tả điều này, tôi cho rằng bạn đã không làm điều đó. Không giống như lựa chọn mô hình từng bước, LASSO sử dụng tham số điều chỉnh để xử phạt số lượng tham số trong mô hình. Bạn có thể sửa tham số điều chỉnh hoặc sử dụng quy trình lặp phức tạp để chọn giá trị này. Theo mặc định , LASSO thực hiện sau. Điều này được thực hiện với CV để giảm thiểu MSE dự đoán. Tôi không biết về bất kỳ triển khai lựa chọn mô hình từng bước nào sử dụng các kỹ thuật tinh vi như vậy, ngay cả BIC làm tiêu chí cũng sẽ bị sai lệch xác nhận nội bộ. Theo tài khoản của tôi, điều đó tự động mang lại cho LASSO đòn bẩy trong việc lựa chọn mô hình từng bước "ngoài luồng".
Cuối cùng, lựa chọn mô hình từng bước có thể có các tiêu chí khác nhau để bao gồm / loại trừ các biến hồi quy khác nhau. Nếu bạn sử dụng giá trị p cho thử nghiệm Wald của các tham số mô hình cụ thể hoặc mô hình kết quả R ^ 2, bạn sẽ không làm tốt, chủ yếu là do sai lệch xác thực nội bộ (một lần nữa, có thể được khắc phục bằng CV). Tôi thấy ngạc nhiên khi đây vẫn là cách các mô hình như vậy có xu hướng được thực hiện. AIC hoặc BIC là những tiêu chí tốt hơn nhiều để lựa chọn mô hình.
Có một số vấn đề với mỗi phương pháp. Các vấn đề của lựa chọn mô hình từng bước được hiểu rõ hơn và tồi tệ hơn nhiều so với các vấn đề của LASSO. Vấn đề chính tôi thấy với câu hỏi của bạn là bạn đang sử dụng các công cụ lựa chọn tính năng để đánh giá dự đoán . Chúng là những nhiệm vụ riêng biệt. LASSO tốt hơn cho lựa chọn tính năng hoặc lựa chọn mô hình thưa thớt. Hồi quy sườn có thể đưa ra dự đoán tốt hơn vì nó sử dụng tất cả các biến.
p≫n
p≫n