Thêm một chút thông tin; giả sử rằng
- bạn biết trước có bao nhiêu biến để chọn và bạn đặt hình phạt phức tạp trong thủ tục LARS để có chính xác có bao nhiêu biến có hệ số không 0,
- chi phí tính toán không phải là một vấn đề (tổng số biến là nhỏ, giả sử 50),
- rằng tất cả các biến (y, x) là liên tục.
Trong cài đặt nào, mô hình LARS (nghĩa là độ khớp OLS của các biến đó có hệ số khác không trong độ khớp LARS) sẽ khác biệt nhất với mô hình có cùng số hệ số nhưng được tìm thấy thông qua tìm kiếm toàn diện (a la regsubets ())?
Chỉnh sửa: Tôi đang sử dụng 50 biến và 250 quan sát với các hệ số thực được rút ra từ một gaussian tiêu chuẩn ngoại trừ 10 biến có hệ số 'thực' là 0 (và tất cả các tính năng có tương quan mạnh với nhau). Các cài đặt này rõ ràng là không tốt vì sự khác biệt giữa hai bộ biến được chọn là phút. Đây thực sự là một câu hỏi về loại cấu hình dữ liệu nào nên mô phỏng để có được sự khác biệt nhất.