Điều này có vẻ như là một vấn đề phù hợp cho Lasso và bạn bè làm co rút và lựa chọn biến. Các yếu tố của học thống kê mô tả lasso và lưới đàn hồi cho hồi quy và, điều gì phù hợp hơn cho vấn đề này, hồi quy logistic.
Các tác giả của cuốn sách đã thực hiện hiệu quả lasso và lưới đàn hồi có sẵn dưới dạng gói R được gọi là glmnet . Trước đây tôi đã sử dụng gói này để phân tích dữ liệu nhị phân với ma trận dữ liệu khoảng 250.000 hàng, mặc dù có ít cột hơn nhưng thực sự chạy hồi quy của tất cả các cột so với tất cả các cột khác. Nếu ma trận dữ liệu cũng thưa thớt, việc triển khai cũng có thể tận dụng lợi thế đó và tôi tin rằng phương thức này thực sự có thể hoạt động đối với tập dữ liệu đầy đủ của OP. Dưới đây là một số ý kiến về Lasso:
- Lasso đạt được lựa chọn biến bằng cách sử dụng hàm hình phạt không trơn tru ( -norm), thường dẫn đến ước tính tham số với một số tham số chính xác bằng 0. Có bao nhiêu tham số khác không được ước tính và bao nhiêu các tham số khác không được thu nhỏ lại, được xác định bởi tham số điều chỉnh. Hiệu quả của việc thực hiện trong glmnet phụ thuộc rất nhiều vào thực tế là đối với một hình phạt lớn chỉ có một vài tham số khác 0.ℓ1
- Việc lựa chọn tham số điều chỉnh thường được thực hiện bằng xác thực chéo, nhưng ngay cả khi không có bước xác thực chéo, phương thức có thể đưa ra một chuỗi các biến được chọn được lập chỉ mục bởi tham số hình phạt.
- Mặt khác, đối với lựa chọn biến, là Lasso có thể không ổn định trong việc lựa chọn các biến, đặc biệt, nếu chúng có phần tương quan. Hình phạt ròng đàn hồi tổng quát hơn đã được phát minh để cải thiện sự bất ổn này, nhưng nó không giải quyết được hoàn toàn vấn đề. Thích ứng lasso là một ý tưởng khác để cải thiện lựa chọn biến cho lasso.
- Lựa chọn ổn định là một phương pháp chung được đề xuất bởi Meinshausen và Bühlmann để đạt được sự ổn định cao hơn của các biến được chọn với các phương thức như lasso. Nó đòi hỏi một số sự phù hợp với các mẫu con của tập dữ liệu và, do đó, đòi hỏi tính toán cao hơn nhiều.
- Một cách suy nghĩ hợp lý về Lasso là một phương pháp để tạo ra một tập hợp các mô hình "tốt" một chiều, từ mô hình một biến đến một mô hình phức tạp hơn (không nhất thiết phải bao gồm tất cả các biến) được tham số hóa bởi tham số hình phạt. Ngược lại, các bộ lọc đơn biến chỉ tạo ra một lựa chọn hoặc sắp xếp các mô hình biến đơn duy nhất.
Đối với Python, có một triển khai trong scikit-learn về các phương thức như lasso và lưới đàn hồi.