Làm thế nào để áp dụng phương pháp bình phương tối thiểu lặp lại (IRLS) cho mô hình LASSO?

12

Tôi đã lập trình hồi quy logistic bằng thuật toán IRLS . Tôi muốn áp dụng hình phạt LASSO để tự động chọn các tính năng phù hợp. Ở mỗi lần lặp, điều sau đây được giải quyết:

(X^{T} W X) δ \hat{β} = X^{T} (y - p)

$\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)}$

Hãy $\lambda$ là một số thực không âm. Tôi không xử phạt việc đánh chặn như đề xuất trong The Elements of. Học thống kê . Ditto cho các hệ số đã bằng không. Mặt khác, tôi trừ một thuật ngữ từ phía bên tay phải:

X^{T} (y - p) - λ \times s i g n (\hat{β})

$\mathbf{X^T\left(y-p\right)-\lambda\times \mathrm{sign}\left(\hat\beta\right)}$

Tuy nhiên, tôi không chắc về việc sửa đổi thuật toán IRLS. Đó có phải là cách làm đúng đắn?

Chỉnh sửa: Mặc dù tôi không tự tin về nó, đây là một trong những giải pháp cuối cùng tôi đã đưa ra. Điều thú vị là giải pháp này tương ứng với những gì tôi hiểu về LASSO. Thực sự có hai bước ở mỗi lần lặp thay vì chỉ một:

bước đầu tiên là giống như trước: chúng tôi thực hiện một lần lặp của thuật toán (như nếu trong công thức cho gradient ở trên), $\lambda=0$
bước thứ hai là bước mới: chúng ta áp dụng ngưỡng mềm cho từng thành phần (ngoại trừ thành phần , tương ứng với phần chặn) của vectơ thu được ở bước đầu tiên. Điều này được gọi là thuật toán ngưỡng mềm lặp . $\beta_0$ $\beta$

\forall i \geq 1, β_{i} \leftarrow s i g n (β_{i}) \times max (0, | β_{i} | - λ)

$\forall i \geq 1, \beta_{i}\leftarrow\mathrm{sign}\left(\beta_{i}\right)\times\max\left(0,\,\left|\beta_{i}\right|-\lambda\right)$

— Chảo
nguồn

Vẫn không thể có được sự hội tụ tốt hơn bằng cách điều chỉnh IRLS. : '(

— Chảo

12

Vấn đề này thường được giải quyết bằng sự phù hợp bằng cách phối hợp gốc ( xem tại đây ). Phương pháp này vừa an toàn hơn về mặt số lượng, dễ thực hiện hơn về mặt thuật toán và áp dụng cho một mảng mô hình tổng quát hơn (bao gồm cả hồi quy Cox). Một thực hiện R có sẵn trong R gói glmnet . Các mã là nguồn mở (một phần trong và bằng C, một phần bằng R), vì vậy bạn có thể sử dụng chúng làm bản thiết kế.

— người dùng603
nguồn

@wok Lưu ý, gói scikit.learn cũng cung cấp triển khai hiệu quả trong Python cho loại công cụ này.

— chl

Các thuật toán gốc tọa độ là thú vị. Cảm ơn. Vẫn đang suy nghĩ về nó.

— Chảo

5

Hàm mất LASSO có gián đoạn ở 0 dọc theo mỗi trục, do đó IRLS sẽ gặp vấn đề với nó. Tôi đã tìm thấy một cách tiếp cận tối ưu hóa tối thiểu tuần tự (SMO) rất hiệu quả, xem ví dụ

http://bioinformatics.oxfordjournals.org/content/19/17/2246

phiên bản có phần mềm MATLAB là

http://bioinformatics.oxfordjournals.org/content/22/19/2348

phần mềm có sẵn ở đây:

http://theoval.cmp.uea.ac.uk/~gcc/cbl/blogreg/

Ý tưởng cơ bản là tối ưu hóa các hệ số tại một thời điểm và kiểm tra xem liệu bạn có vượt qua được một hệ số gián đoạn tại một thời điểm hay không, điều này rất dễ dàng khi bạn đang thực hiện tối ưu hóa vô hướng. Nghe có vẻ chậm, nhưng nó thực sự khá hiệu quả (mặc dù tôi hy vọng các thuật toán tốt hơn đã được phát triển kể từ đó - có lẽ bởi Keerthi hoặc Chih-Jen Lin, cả hai đều là chuyên gia hàng đầu trong lĩnh vực đó).

— Sao Hỏa Dikran
nguồn

Cảm ơn. Tôi đang đọc nó và suy nghĩ về nó. Tuy nhiên, đây sẽ là một sửa đổi lớn của thuật toán hiện tại.

— Chảo

4

Bạn có thể kiểm tra bài viết: Hồi quy logistic thường xuyên L1 hiệu quả, là thuật toán dựa trên IRLS cho LASSO. Về việc triển khai, liên kết có thể hữu ích cho bạn (http://ai.stanford.edu/~silee/software/irlslars.htmlm).

0

IRLS cho vấn đề LASSO như sau:

\arg min_{x} \frac{1}{2} {‖ A x - b ‖}_{2}^{2} + λ {‖ x ‖}_{1} = \arg min_{x} \frac{1}{2} {‖ A x - b ‖}_{2}^{2} + λ x^{T} W x

$\arg \min_{x} \frac{1}{2} \left\| A x - b \right\|_{2}^{2} + \lambda \left\| x \right\|_{1} = \arg \min_{x} \frac{1}{2} \left\| A x - b \right\|_{2}^{2} + \lambda {x}^{T} W {x}$

$W$ ${W}_{i, i} = \frac{1}{ \left| {x}_{i} \right| }$
$\left\| x \right\|_{1} = \sum_{i} \left| {x}_{i} \right| = \sum_{i} \frac{ {x}_{i}^{2} } { \left| {x}_{i} \right| }$

$W$ $x$ ${x}^{T} W x$ $x$ $x$ $\operatorname{diag} \left( \operatorname{sign} \left( x \right) \right)$ $W x$

x^{k + 1} = {(A^{T} A + λ W^{k})}^{- 1} A^{T} b

${x}^{k + 1} = \left( {A}^{T} A + \lambda {W}^{k} \right)^{-1} {A}^{T} b$

${W}_{i, i}^{K} = \frac{1}{ \left| {x}^{k}_{i} \right| }$ .

Initialization can be by $W = I$ .

Pay attention this doesn't work well for large values of $\lambda$ and you better use ADMM or Coordinate Descent.

— Royi
nguồn