Làm thế nào để LASSO chọn trong số các dự đoán cộng tuyến?

Tôi đang tìm kiếm một câu trả lời trực quan tại sao mô hình GLM LASSO chọn một công cụ dự đoán cụ thể trong số các nhóm có tương quan cao và tại sao nó lại khác biệt như vậy sau đó là lựa chọn tính năng tập hợp con tốt nhất.

Từ hình học của LASSO được hiển thị trong Hình 2 trong Tibshirani 1996, tôi đã tin rằng LASSO chọn công cụ dự đoán có phương sai lớn hơn.

Bây giờ giả sử rằng tôi sử dụng lựa chọn tập hợp con tốt nhất với 10 lần CV, để có được 2 dự báo cho mô hình hồi quy logistic và tôi có kiến thức hợp lý trước rằng 2 dự đoán này là tối ưu (theo nghĩa mất 0-1).

Giải pháp LASSO ủng hộ giải pháp ít phân tích hơn (5 dự đoán) với lỗi dự đoán lớn hơn. Theo trực giác, điều gì gây ra sự khác biệt phát sinh? Có phải vì cách LASSO chọn trong số các yếu tố dự đoán tương quan?

feature-selection lasso

— Piotr Sokol
nguồn

LASSO khác với lựa chọn tập hợp con tốt nhất về hình phạt và sự phụ thuộc vào đường dẫn.

Trong lựa chọn tập hợp con tốt nhất, có lẽ CV được sử dụng để xác định rằng 2 dự đoán cho hiệu suất tốt nhất. Trong CV, các hệ số hồi quy cường độ đầy đủ mà không bị phạt sẽ được sử dụng để đánh giá có bao nhiêu biến. Khi quyết định được đưa ra để sử dụng 2 yếu tố dự đoán, thì tất cả các kết hợp của 2 yếu tố dự đoán sẽ được so sánh trên bộ dữ liệu đầy đủ, song song, để tìm ra 2 cho mô hình cuối cùng. Hai dự đoán cuối cùng sẽ được đưa ra hệ số hồi quy cường độ đầy đủ của chúng, mà không bị phạt, như thể chúng là những lựa chọn duy nhất trong suốt thời gian qua.

Bạn có thể nghĩ về LASSO như bắt đầu với một hình phạt lớn trên tổng độ lớn của các hệ số hồi quy, với hình phạt dần được nới lỏng. Kết quả là các biến nhập một lần, với một quyết định được đưa ra tại mỗi thời điểm trong quá trình thư giãn cho dù việc tăng hệ số của các biến đã có trong mô hình hay thêm một biến khác có giá trị hơn. Nhưng khi bạn nhận được mô hình 2 biến, các hệ số hồi quy được LASSO cho phép sẽ có độ lớn thấp hơn so với các biến tương tự sẽ có trong các hồi quy không bị phạt tiêu chuẩn được sử dụng để so sánh các mô hình 2 biến và 3 biến trong lựa chọn tập hợp con tốt nhất.

Điều này có thể được coi là làm cho các biến mới nhập vào LASSO dễ dàng hơn so với lựa chọn tập hợp con tốt nhất. Về mặt lý thuyết, LASSO đánh đổi các hệ số hồi quy có khả năng thấp hơn thực tế so với độ không đảm bảo về số lượng biến cần được đưa vào. Điều này sẽ có xu hướng bao gồm nhiều biến hơn trong mô hình LASSO và có khả năng hoạt động kém hơn đối với LASSO nếu bạn biết chắc chắn rằng chỉ có 2 biến cần được đưa vào. Nhưng nếu bạn đã biết có bao nhiêu biến dự đoán nên được đưa vào mô hình chính xác, có lẽ bạn sẽ không sử dụng LASSO.

Không có gì cho đến nay phụ thuộc vào cộng tuyến, dẫn đến các loại tùy ý khác nhau trong lựa chọn biến trong tập hợp con tốt nhất so với LASSO. Trong ví dụ này, tập hợp con tốt nhất đã kiểm tra tất cả các kết hợp có thể có của 2 dự đoán và chọn kết hợp tốt nhất trong số các kết hợp đó. Vì vậy, 2 tốt nhất cho mẫu dữ liệu cụ thể đó giành chiến thắng.

LASSO, với sự phụ thuộc đường dẫn của nó trong việc thêm một biến tại một thời điểm, có nghĩa là sự lựa chọn sớm của một biến có thể ảnh hưởng khi các biến khác tương quan với nó biến sau này trong quá trình thư giãn. Cũng có thể một biến nhập sớm và sau đó cho hệ số LASSO của nó giảm khi các biến tương quan khác nhập.

Trong thực tế, sự lựa chọn giữa các yếu tố dự đoán tương quan trong các mô hình cuối cùng với một trong hai phương pháp phụ thuộc rất nhiều vào mẫu, như có thể được kiểm tra bằng cách lặp lại các quy trình xây dựng mô hình này trên các mẫu bootstrap của cùng một dữ liệu. Nếu không có quá nhiều dự đoán và mối quan tâm chính của bạn là dự đoán trên các tập dữ liệu mới, hồi quy sườn, có xu hướng giữ tất cả các dự đoán, có thể là lựa chọn tốt hơn.

— EdM
nguồn