Tại sao sử dụng ước tính Lasso trên ước tính OLS trên tập hợp con của Lasso được xác định?


26

L(β)=(Xβy)(Xβy)+λβ1,
kβ^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)

Chúng tôi biết rằng (β^1lasso,β^2lasso,...,β^klasso) là một ước tính sai lệch của (β1,β2,...,βk) , vậy tại sao chúng ta vẫn lấy β^lasso làm giải pháp cuối cùng, thay vì 'hợp lý' hơn β^new=(β^1:knew,0,...,0) , trong đó β^1:knew là ước tính LS từ mô hình một phần Lnew(β1:k)=(X1:kβy)(X1:kβy) . ( X1:k biểu thị các cột của X tương ứng với các tính năng được chọn k ).

Tóm lại, tại sao chúng ta sử dụng Lasso cả cho lựa chọn tính năng và ước tính tham số, thay vì chỉ cho lựa chọn biến (và để lại ước tính trên các tính năng được chọn cho OLS)?

(Ngoài ra, điều gì có nghĩa là 'Lasso có thể chọn tối đa n tính năng'? n là kích thước mẫu.)


1
Đó là một câu hỏi rất hay. Bạn đã thử một vài mô phỏng để xem kết quả sẽ khác với Lasso tiêu chuẩn như thế nào nếu bạn thử theo cách của bạn?
Placidia

3
Bạn có hiểu mục đích của "Co ngót" trong LASSO không?
Michael M

6
Ý tưởng là thu nhỏ chính xác các ước tính hệ số vì bạn đã chọn những ước tính lớn nhất. Ước tính tối thiểu bình phương không còn thiên vị khi bạn đã thực hiện lựa chọn tính năng trước đó.
Scortchi - Phục hồi Monica

2
Xem câu hỏi sau đây để có câu trả lời tuyệt vời cho "Vấn đề nào làm phương pháp thu nhỏ giải quyết?" stats.stackexchange.com/questions/20295/ Cách
DL Dahly

2
Để rõ ràng: Không nói @Scortchi là sai, nhưng đây là một chút màu xám khi thảo luận về lựa chọn tính năng và tôi nghĩ rằng đây là một điểm kỹ thuật quan trọng cần được làm rõ.
JohnA

Câu trả lời:


27

Tôi không tin có gì sai khi sử dụng LASSO cho lựa chọn biến và sau đó sử dụng OLS. Từ " Các yếu tố của học thống kê " (trang 91)

... Độ co rút của Lasso làm cho các ước tính của các hệ số khác không bị sai lệch về 0 và nói chung chúng không nhất quán [ Ghi chú thêm: Điều này có nghĩa là, khi kích thước mẫu tăng lên, các ước tính hệ số không hội tụ] . Một cách tiếp cận để giảm sai lệch này là chạy Lasso để xác định tập hợp các hệ số khác không, và sau đó khớp một mô hình tuyến tính không bị hạn chế với tập hợp các tính năng được chọn. Điều này không phải lúc nào cũng khả thi, nếu bộ được chọn là lớn. Ngoài ra, người ta có thể sử dụng Lasso để chọn tập hợp các yếu tố dự đoán khác không, sau đó áp dụng lại Lasso, nhưng chỉ sử dụng các yếu tố dự đoán được chọn từ bước đầu tiên. Điều này được gọi là Lasso thư giãn(Meinshausen, 2007). Ý tưởng là sử dụng xác thực chéo để ước tính tham số hình phạt ban đầu cho Lasso và sau đó một lần nữa cho tham số hình phạt thứ hai được áp dụng cho bộ dự đoán đã chọn. Do các biến trong bước thứ hai có ít "cạnh tranh" hơn từ các biến nhiễu, nên xác thực chéo sẽ có xu hướng chọn giá trị nhỏ hơn cho [tham số hình phạt] và do đó, hệ số của chúng sẽ bị thu hẹp ít hơn so với ước tính ban đầu.λ

Một cách tiếp cận hợp lý khác tương tự về tinh thần với Lasso thư giãn, sẽ là sử dụng Lasso một lần (hoặc nhiều lần song song) để xác định một nhóm các biến dự đoán ứng viên. Sau đó sử dụng hồi quy tập hợp con tốt nhất để chọn các biến dự đoán tốt nhất để xem xét (cũng xem "Các yếu tố của học thống kê" cho điều này). Để làm việc này, bạn sẽ cần tinh chỉnh nhóm dự đoán ứng viên xuống khoảng 35, điều này sẽ không khả thi. Bạn có thể sử dụng xác nhận chéo hoặc AIC làm tiêu chí để ngăn chặn sự phù hợp quá mức.


Một phần khác trong câu hỏi của tôi là, tại sao 'Lasso có thể chọn tối đa n tính năng'? Nếu đây là trường hợp, tôi nghĩ rằng OLS trên các tính năng được chọn sẽ ít nhất là 'tốt', vì OLS là 'BLUE' (Không hoàn toàn XANH vì nó chủ yếu là sai lệch). Chỉ cần xem xét một tình huống cực đoan là Lasso chọn các tính năng chính xác, tiến hành OLS trên các tính năng này sẽ khôi phục mô hình thực, mà tôi nghĩ là tốt hơn so với ước tính của Lasso.
yliueagle

2
Vấn đề là "tình huống cực đoan" này rất khó xảy ra, và không có cách nào để biết liệu LASSO có chọn đúng các tính năng chính xác hay không. Nếu LASSO chọn quá nhiều tính năng, thì tôi nghĩ rằng mô hình OLS đầy đủ có thể hoạt động kém hơn so với ước tính của LASSO. Tương tự, hồi quy sườn có thể vượt trội hơn OLS nếu có quá nhiều tính năng (ví dụ OLS là quá phù hợp).
Alex Williams

2
Xem thêm web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf , phần cuối của Phần 2.2: "[...] bình phương nhỏ nhất phù hợp với tập hợp con của [...] dự đoán có xu hướng mở rộng ước tính lasso cách xa con số 0. Các ước tính khác không từ lasso có xu hướng thiên về 0, do đó, việc gỡ rối ở bảng bên phải thường có thể cải thiện lỗi dự đoán của mô hình. Quá trình hai giai đoạn này còn được gọi là lasso thoải mái (Meinshausen 2007) . "
amip nói rằng Phục hồi lại

1
Tôi đã xem xét bài viết của Meinshausen và nó thực sự khuyên bạn nên điều chỉnh hai tham số hình phạt, như được mô tả trong trích dẫn ban đầu của bạn từ The Elements. +1
amip nói Phục hồi lại

@AlexWilliams Nhưng không có giả định thưa thớt trong đoạn trước về mối tương quan giữa tập đã chọn và những gì bị loại bỏ là nhỏ?
Dimitriy V. Masterov

15

Nếu mục tiêu của bạn là hiệu suất trong mẫu tối ưu (bình phương R cao nhất), thì chỉ cần sử dụng OLS trên mỗi biến có sẵn. Các biến giảm sẽ làm giảm bình phương R.

Nếu mục tiêu của bạn là hiệu suất ngoài mẫu tốt (thường là điều quan trọng hơn nhiều), thì chiến lược được đề xuất của bạn sẽ phải chịu từ hai nguồn quá mức:

  • Lựa chọn các biến dựa trên mối tương quan với biến trả lời
  • Ước tính OLS

Mục đích của LASSO là thu nhỏ các ước tính tham số về 0 để chống lại hai nguồn quá mức. Dự đoán trong mẫu sẽ luôn tệ hơn OLS, nhưng hy vọng là (tùy thuộc vào độ mạnh của hình phạt) để có được hành vi ngoài mẫu thực tế hơn.

Về : Điều này (có thể) phụ thuộc vào việc triển khai LASSO bạn đang sử dụng. Một biến thể, Lars (hồi quy góc nhỏ nhất), không dễ dàng làm việc cho .p>np>n


2
"Leekasso" (luôn chọn 10 hệ số) khác với đề xuất của câu hỏi (ước tính lại OLS với k dự đoán được chọn bởi LASSO)
affine

@affine bạn hoàn toàn đúng. Tôi xóa tham chiếu.
Michael M

2
Điều này nghe có vẻ hợp lý, nhưng các nhà phát minh của Lasso tranh luận khác và thực sự khuyên bạn nên sử dụng quy trình hai giai đoạn với OLS trên tập hợp con được xác định bởi Lasso (như được đề xuất bởi OP), xem câu trả lời của @ Alex.
amip nói phục hồi Monica

Tôi thích câu trả lời này vì nó đề cập đến xu hướng lựa chọn từ chính tìm kiếm; nó chắc chắn cảm thấy như cần phải có một hình phạt bổ sung. LASSO là cơ chế lựa chọn tập hợp con đơn thuần - đó có phải là tất cả không? Vậy thì tại sao thậm chí in ra các hệ số của nó?
Ben Ogorek

3

Liên quan đến câu hỏi của OP về lý do tại sao Lasso có thể chọn tối đa n tính năng:

Xem xét tại sao một OLS có thể bị sai lệch: đây là khi có nhiều dự đoán ( p ) hơn các quan sát ( n ). Do đó có kích thước [p, p] trong . Lấy một nghịch đảo của một ma trận như vậy là không thể (nó có thể là số ít).XTXβ=(XTX)1XTY

Lasso buộc phải thu nhỏ các hệ số của các biến để điều này không xảy ra, do đó nó không bao giờ chọn nhiều hơn n tính năng để luôn không thể nghịch đảo.XTX


1
(-1) Tôi không nghĩ điều này là đúng. Bạn có thể giải thích thêm về kết nối giữa không tồn tại và Lasso không? Cụ thể, $ X ^ TX phải làm gì với Lasso? Có bằng chứng về câu hỏi OPS (ví dụ, câu trả lời ở đây đang được tiết lộ: stats.stackexchange.com/questions/38299/ trộm) nhưng câu trả lời này không xuất hiện chứng minh điều đó. (Xin vui lòng cho tôi biết nếu tôi nhầm!)(XTX)1
user795305
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.