Tôi đang đọc về lựa chọn tập hợp con tốt nhất trong các yếu tố của cuốn sách học thống kê. Nếu tôi có 3 dự đoán , tôi tạo tập con:
- Tập hợp con không có dự đoán
- tập hợp con với bộ dự đoán
- tập hợp con với công cụ dự đoán
- tập hợp con với bộ dự đoán
- tập hợp con với các yếu tố dự đoán
- tập hợp con với các yếu tố dự đoán
- tập hợp con với các yếu tố dự đoán
- tập hợp con với các yếu tố dự đoán
Sau đó, tôi kiểm tra tất cả các mô hình trên dữ liệu thử nghiệm để chọn mô hình tốt nhất.
Bây giờ câu hỏi của tôi là tại sao lựa chọn tập hợp con tốt nhất không được ưa chuộng so với lasso?
Nếu tôi so sánh các hàm ngưỡng của tập hợp con và lasso tốt nhất, tôi thấy rằng tập hợp con tốt nhất đặt một số hệ số về 0, như lasso. Nhưng, hệ số khác (khác không) sẽ vẫn có các giá trị ols, chúng sẽ không thiên vị. Trong khi đó, trong lasso, một số hệ số sẽ bằng 0 và các hệ số khác (khác không) sẽ có một số sai lệch. Hình dưới đây cho thấy nó tốt hơn:
Từ hình ảnh, một phần của đường màu đỏ trong trường hợp tập hợp con tốt nhất là nằm trên đường màu xám. Phần khác nằm trong trục x trong đó một số hệ số bằng không. Đường màu xám xác định các giải pháp không thiên vị. Trong lasso, một số sai lệch được giới thiệu bởi . Từ hình này tôi thấy rằng tập hợp con tốt nhất là tốt hơn lasso! Những nhược điểm của việc sử dụng tập hợp con tốt nhất là gì?