Tại sao lasso cho lựa chọn tính năng?


9

Giả sử tôi có một bộ dữ liệu chiều cao và muốn thực hiện lựa chọn tính năng. Một cách là đào tạo một mô hình có khả năng xác định các tính năng quan trọng nhất trong bộ dữ liệu này và sử dụng mô hình này để loại bỏ những tính năng ít quan trọng nhất.

Trong thực tế, tôi sẽ sử dụng biến áp ChọnFromModel của sklearn cho việc này. Theo tài liệu, bất kỳ người ước tính nào với một feature_importances_hoặc một coef_thuộc tính sẽ làm.

Ngoài Lasso , nhiều mô hình tuyến tính khác có thuộc tính này ( linearRegression , RidgeElasticNet để đặt tên cho một số) và có thể được sử dụng để xác định các tính năng quan trọng nhất .

Điều gì làm cho Lasso trở thành mô hình phổ biến nhất để xác định các tính năng quan trọng nhất trong bộ dữ liệu?

Câu trả lời:


9

Trước tiên, hãy cẩn thận trong việc chỉ định ý của bạn bằng "các tính năng quan trọng nhất " trong bộ dữ liệu. Xem trang này cho các quan điểm khác nhau về vấn đề này. Ví dụ: có thể cần các tính năng được coi là "không quan trọng" để giúp cải thiện dự đoán dựa trên các tính năng khác, vì vậy bạn có thể không muốn vứt chúng đi.

Những gì LASSO làm tốt là cung cấp một cách nguyên tắc để giảm số lượng các tính năng trong một mô hình. Ngược lại, tự động lựa chọn tính năng dựa trên hồi quy tuyến tính tiêu chuẩn bằng cách lựa chọn từng bước hoặc chọn các đặc điểm với mức thấp nhất p -values có nhiều nhược điểm . Ưu điểm của LASSO so với các phương pháp dựa trên hồi quy khác được mô tả cụ thể ở đây . LASSO liên quan đến yếu tố hình phạt xác định có bao nhiêu tính năng được giữ lại; sử dụng xác nhận chéo để chọn hệ số hình phạt giúp đảm bảo rằng mô hình sẽ khái quát tốt cho các mẫu dữ liệu trong tương lai.

Hồi quy sườn không cố gắng chọn các tính năng, thay vào đó, nó sử dụng một hình phạt được áp dụng cho tổng bình phương của tất cả các hệ số hồi quy. Một lần nữa, lựa chọn hình phạt bằng cách xác nhận chéo giúp đảm bảo khái quát. Lưới đàn hồi có thể được coi là một lai của LASSO với sườn núi. Xem trang này để biết chi tiết về sự khác biệt giữa các phương pháp bị phạt này. Nếu sở thích chính của bạn là dự đoán và không quá tốn kém để thu thập thông tin về tất cả các tính năng, bạn có thể không cần phải thực hiện lựa chọn tính năng nào cả và thay vào đó sử dụng hồi quy sườn để giữ thông tin về tất cả các dự đoán trong mô hình.

Nếu bạn cần cắt giảm số lượng người dự đoán vì lý do thực tế, LASSO là một lựa chọn tốt. Nhưng tất cả những gì nó làm là cung cấp cho bạn một bộ dự đoán hữu ích, không nhất thiết là quan trọng nhất trong một số ý nghĩa chung. Khi các tính năng tương quan, LASSO sẽ chọn cái này hoặc cái kia dựa trên hiệu suất của nó trong mẫu dữ liệu cụ thể trong tay. Với một mẫu khác, nó cũng có thể chọn một tính năng khác từ một tập hợp các tính năng tương quan. Điều này thường không ảnh hưởng đến hiệu suất dự đoán của mô hình LASSO, nhưng nó tạm dừng về ý nghĩa của "các tính năng quan trọng nhất ". Xem trang này để thảo luận về sự không ổn định như vậy trong mô hình LASSO.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.