Tại sao Lasso cung cấp lựa chọn biến?


76

Tôi đã đọc các yếu tố của học thống kê và tôi muốn biết lý do tại sao Lasso cung cấp lựa chọn thay đổi và hồi quy sườn không.

Cả hai phương pháp đều tối thiểu hóa tổng bình phương còn lại và có một ràng buộc đối với các giá trị có thể có của các tham số . Đối với Lasso, ràng buộc là , trong khi đối với sườn núi thì đó là , đối với một số .β||β||1t||β||2tt

Tôi đã nhìn thấy hình ảnh kim cương và hình elip trong cuốn sách và tôi có một số trực giác về lý do tại sao Lasso có thể chạm vào các góc của vùng bị giới hạn, ngụ ý rằng một trong các hệ số được đặt thành không. Tuy nhiên, trực giác của tôi khá yếu và tôi không bị thuyết phục. Nó rất dễ nhìn, nhưng tôi không biết tại sao điều này lại đúng.

Vì vậy, tôi đoán rằng tôi đang tìm kiếm một sự biện minh toán học, hoặc một lời giải thích trực quan về lý do tại sao các đường viền của tổng bình phương còn lại có khả năng chạm vào các góc của vùng bị ràng buộc (trong khi tình huống này khó xảy ra nếu ràng buộc là ).||β||1||β||2


Tất cả các câu trả lời dưới đây là lời giải thích tốt. Nhưng tôi đưa ra một bài viết với đại diện trực quan. Sau đây là đường dẫn Medium.com/@vamsi149/ Lời
solver149

Câu trả lời:


70

Hãy xem xét một mô hình rất đơn giản: , với hình phạt L1 trên và hàm mất bình phương nhỏ nhất trên . Chúng ta có thể mở rộng biểu thức để được thu nhỏ như:y=βx+eββ^ee^

minyTy2yTxβ^+β^xTxβ^+2λ|β^|

Giả sử giải pháp bình phương nhỏ nhất là một số , tương đương với giả định rằng và xem điều gì xảy ra khi chúng ta thêm hình phạt L1. Với , , vì vậy thời hạn phạt bằng . Đạo hàm của hàm mục tiêu wrt là:β^>0yTx>0β^>0|β^|=β^2λββ^

2yTx+2xTxβ^+2λ

trong đó rõ ràng có giải pháp . β^=(yTxλ)/(xTx)

Rõ ràng bằng cách tăng chúng ta có thể lái về 0 (tại ). Tuy nhiên, một khi , tăng sẽ không khiến nó âm tính, bởi vì, viết lỏng lẻo, tức thời trở thành âm, đạo hàm của hàm mục tiêu thay đổi thành:λβ^λ=yTxβ^=0λβ^

2yTx+2xTxβ^2λ

trong đó việc lật dấu hiệu của là do tính chất giá trị tuyệt đối của thời hạn phạt; khi trở nên âm tính, thời hạn phạt sẽ bằng và lấy kết quả wrt phái sinh trong . Điều này dẫn đến giải pháp , rõ ràng không phù hợp với (cho rằng giải pháp bình phương nhỏ nhất , trong đó ngụ ý vàλβ2λββ2λβ^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0). Có sự gia tăng hình phạt L1 VÀ tăng thời hạn lỗi bình phương (vì chúng tôi đang di chuyển xa hơn từ giải pháp bình phương nhỏ nhất) khi di chuyển từ đến , vì vậy chúng tôi không dính tại .β^0<0β^=0

Cần phải rõ ràng bằng trực giác cùng một logic được áp dụng, với các thay đổi dấu thích hợp, cho một giải pháp bình phương tối thiểu với . β^<0

Tuy nhiên, với hình phạt bình phương nhỏ nhất , đạo hàm trở thành:λβ^2

2yTx+2xTxβ^+2λβ^

trong đó rõ ràng có giải pháp . Rõ ràng là không tăng sẽ đẩy điều này về không. Vì vậy, hình phạt L2 không thể hoạt động như một công cụ lựa chọn biến mà không có một số yếu tố quảng cáo nhẹ như "đặt ước tính tham số bằng 0 nếu nó nhỏ hơn ". β^=yTx/(xTx+λ)λϵ

Rõ ràng mọi thứ có thể thay đổi khi bạn chuyển sang các mô hình đa biến, ví dụ, di chuyển một ước tính tham số xung quanh có thể buộc một số khác thay đổi dấu, nhưng nguyên tắc chung là như nhau: hàm hình phạt L2 không thể đưa bạn về 0, bởi vì, viết rất heuristur, nó có hiệu lực thêm vào "mẫu số" của biểu thức cho , nhưng hàm hình phạt L1 có thể, bởi vì nó có hiệu lực thêm vào "tử số". β^


Lasso cũng cung cấp lựa chọn tính năng trong trường hợp mô hình phi tuyến tính, ví dụ NN?
Ilya

Một câu hỏi tiếp theo nhỏ: Làm thế nào có thể nếu là một vectơ và là một vô hướng mà chúng ta có thể thay đổi để tìm sự phù hợp? λ=yTxyTxλ
Jekaterina Kokatjuhha

Tôi đã sử dụng một ví dụ đơn biến, vì vậy là một vô hướng. Nếu bạn đang giải quyết một vấn đề đa biến, thì sẽ được nhân với một vectơ có độ dài = kích thước của hoặc ma trận nhận dạng có kích thước phù hợp, tùy thuộc vào vấn đề nào đang được giải quyết. Ví dụ, bạn có thể làm việc đó bằng cách lưu ý rằng định mức L2 của = và thực hiện thay thế trong các công thức trên. yTxλβzzTIz
Jbowman

Liệu có thể chỉ ra (về mặt toán học?) Làm thế nào dấu hiệu của lambda lật do tính chất tuyệt đối của chức năng hình phạt vì tôi không thể tuân theo logic này.
dùng1420372

@ user1420372 - đã làm xong; cho tôi biết bạn nghĩ gì.
jbowman

9

Giả sử chúng ta có một tập dữ liệu với y = 1 và x = [1/10 1/10] (một điểm dữ liệu, hai tính năng). Một giải pháp là chọn một trong các tính năng, một tính năng khác là cân cả hai tính năng. Tức là chúng ta có thể chọn w = [5 5] hoặc w = [10 0].

Lưu ý rằng đối với định mức L1 cả hai đều có cùng một hình phạt, nhưng trọng số trải rộng hơn có mức phạt thấp hơn cho định mức L2.


8

Tôi nghĩ rằng đã có những anwers tuyệt vời rồi nhưng chỉ để thêm một số trực giác liên quan đến việc giải thích hình học:

"Lasso thực hiện co rút , do đó có" góc "trong ràng buộc, có hai chiều tương ứng với một viên kim cương. Nếu tổng bình phương" chạm "một trong các góc này, thì hệ số tương ứng với trục bị thu hẹp đến không.L1

Khi tăng, viên kim cương đa chiều có số góc tăng dần, và do đó, rất có khả năng một số hệ số sẽ được đặt bằng 0. Do đó, Lasso thực hiện thu hẹp và (hiệu quả) lựa chọn tập hợp con.p

Ngược lại với lựa chọn tập hợp con, sườn núi thực hiện một ngưỡng mềm: vì tham số làm mịn được thay đổi, đường dẫn mẫu của các ước tính di chuyển liên tục về không. "

Nguồn: https://onlinecferences.science.psu.edu/stat857/book/export/html/137

Hiệu ứng có thể được hình dung độc đáo trong đó các đường màu là đường dẫn của các hệ số hồi quy thu nhỏ về không.

nhập mô tả hình ảnh ở đây

"Hồi quy sườn thu nhỏ tất cả các hệ số hồi quy về 0; Lasso có xu hướng đưa ra một tập hợp các hệ số hồi quy bằng 0 và dẫn đến một giải pháp thưa thớt."

nhập mô tả hình ảnh ở đây

Nguồn: https://onlinecferences.science.psu.edu/stat857/node/158

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.