Các phương pháp này - lưới Lasso và lưới đàn hồi - được sinh ra từ các vấn đề của cả lựa chọn và dự đoán tính năng. Đó là thông qua hai ống kính mà tôi nghĩ rằng một lời giải thích có thể được tìm thấy.
Matthew Gunn giải thích độc đáo trong câu trả lời của mình rằng hai mục tiêu này là khác biệt và thường được đưa ra bởi những người khác nhau. Tuy nhiên, may mắn thay cho chúng tôi, các phương pháp mà chúng tôi quan tâm có thể thực hiện tốt trong cả hai đấu trường.
Lựa chọn tính năng
Đầu tiên, hãy nói về lựa chọn tính năng. Trước tiên chúng ta nên thúc đẩy mạng lưới đàn hồi từ quan điểm của Lasso. Đó là, để trích dẫn Hastie và Zou , "Nếu có một nhóm biến trong đó các mối tương quan theo cặp rất cao, thì Lasso có xu hướng chỉ chọn một biến trong nhóm và không quan tâm đến biến nào được chọn." Ví dụ, đây là một vấn đề, bởi vì điều đó có nghĩa là chúng ta không có khả năng tìm thấy một yếu tố hỗ trợ thực sự bằng cách sử dụng Lasso - chỉ là một yếu tố tương quan cao với nó. (Bài viết đề cập rằng điều này đã được chứng minh trong bài báo LARS mà tôi chưa đọc.) Khó khăn trong việc phục hồi hỗ trợ khi có sự tương quan cũng được Wainwright chỉ ra , khi có mối tương quan cao giữa hỗ trợ thực sự và bổ sung.0.5
Bây giờ, hình phạt l2 trong mạng đàn hồi khuyến khích các tính năng có hệ số được coi là không thể phân biệt bằng chỉ mất và hình phạt l1 để có hệ số ước tính bằng nhau. Chúng tôi lỏng lẻo có thể thấy điều này bởi nhận thấy rằng thỏa mãn | một | = | b(a,b)=argmina′,b′:c=|a′|+|b′|(a′)2+(b′)2. Do đó, mạng lưới đàn hồi khiến chúng ta ít có khả năng 'vô tình' biến mất một ước tính hệ số nằm trong hỗ trợ thực sự. Đó là, hỗ trợ thực sự có nhiều khả năng được bao gồm trong hỗ trợ ước tính. Điều đó thật tốt! Điều đó có nghĩa là có nhiều khám phá sai lầm hơn, nhưng đó là cái giá mà hầu hết mọi người sẵn sàng trả.|a|=|b|
Bên cạnh đó, đáng để chỉ ra rằng thực tế là các tính năng có tương quan cao sẽ có xu hướng ước tính hệ số rất giống nhau để chúng ta có thể phát hiện các nhóm tính năng trong hỗ trợ ước tính có ảnh hưởng tương tự.
Dự đoán
α=1
Lederer, Yu và Gaynanova cho thấy, không có giả định nào về các tính năng, rằng lasso và lưới đàn hồi đều có thể có lỗi dự đoán l2 bị ràng buộc bởi cùng một số lượng. Không nhất thiết là ràng buộc của chúng là chặt chẽ, nhưng điều này có thể thú vị để lưu ý vì sự bất bình đẳng orory dường như là một cách tiêu chuẩn trong tài liệu thống kê để định lượng hiệu suất dự đoán của các công cụ ước tính - có lẽ vì các phân phối rất phức tạp! Cũng đáng lưu ý rằng Lederer (1) (2) có một số bài viết về dự đoán lasso với sự hiện diện của các tính năng tương quan.
Tóm lược
Tóm lại, các vấn đề quan tâm là sự hỗ trợ thực sự nằm trong dự đoán và hỗ trợ ước tính. Để phục hồi hỗ trợ, đã có những đảm bảo được chứng minh nghiêm ngặt (thông qua Wainwright) rằng Lasso chọn các tính năng chính xác trong mô hình theo các giả định về mối tương quan thấp giữa hỗ trợ thực sự và bổ sung. Tuy nhiên, với sự có mặt của mối tương quan, chúng ta có thể quay lại mạng lưới đàn hồi để có nhiều khả năng chọn các tính năng trong hỗ trợ thực sự nằm trong số tất cả những gì nó chọn. (Lưu ý rằng chúng ta phải chọn cẩn thận các tham số điều chỉnh ở đây.) Và, để dự đoán khi chúng ta chọn tham số điều chỉnh thông qua xác thực chéo, điều này có ý nghĩa trực quan rằng lưới đàn hồi phải hoạt động tốt hơn so với lasso - đặc biệt là khi có sự tương quan .
Đặt dự đoán sang một bên và một số hình thức, chúng ta đã học được gì? Chúng tôi đã học về sự hỗ trợ thực sự.
Khoảng tin cậy
Thật đáng để chỉ ra rằng rất nhiều thứ đã thay đổi trong 2 năm qua liên quan đến suy luận hợp lệ cho bức tranh. Cụ thể, tác phẩm của Lee, Sun, Sun và Taylor cung cấp suy luận chính xác cho các hệ số của điều kiện Lasso trên mô hình đã cho được chọn. (Kết quả suy luận về Lasso cho các hệ số thực sự xuất hiện vào thời điểm bài viết của OP và chúng được tóm tắt tốt trong bài báo được liên kết.)