Tại sao độ dốc giảm dần thay vì các phương pháp nâng cấp đơn giản cho Lasso?


9

Tôi đã suy nghĩ để giải quyết Lasso thông qua các phương pháp nâng cấp vanilla. Nhưng tôi đã đọc những người đề nghị sử dụng giảm dần độ dốc Proximal. Ai đó có thể làm nổi bật lý do tại sao GD gần nhất thay vì phương pháp nâng cấp vanilla được sử dụng cho Lasso không?

Câu trả lời:


14

Một giải pháp gần đúng thực sự có thể được tìm thấy cho Lasso bằng các phương pháp nâng cấp. Ví dụ: giả sử chúng tôi muốn giảm thiểu chức năng mất sau:

f(w;λ)=yXw22+λw1

Độ dốc của thời hạn phạt là cho và cho , nhưng thời hạn phạt là không thể phân biệt ở . Thay vào đó, chúng ta có thể sử dụng , tương tự nhưng có giá trị cho .w i < 0 λ w i > 0 0 λ sgn ( w ) 0 w i = 0λwi<0λwi>00λsgn(w)0wi=0

Cấp con tương ứng cho hàm mất là:

g(w;λ)=2XT(yXw)+λsgn(w)

Chúng ta có thể giảm thiểu chức năng mất bằng cách sử dụng một cách tiếp cận tương tự như giảm độ dốc, nhưng sử dụng phần phụ (bằng với độ dốc ở mọi nơi trừ , trong đó độ dốc không xác định). Giải pháp có thể rất gần với giải pháp Lasso thực sự, nhưng có thể không chứa các số 0 chính xác - trong đó trọng số phải bằng 0, thay vào đó chúng tạo ra các giá trị cực kỳ nhỏ. Sự thiếu thưa thớt thực sự này là một lý do để không sử dụng các phương pháp nâng cấp cho lasso. Người giải quyết chuyên dụng tận dụng cấu trúc vấn đề để tạo ra các giải pháp thực sự thưa thớt theo cách tính toán hiệu quả. Bài này0nói rằng, bên cạnh việc tạo ra các giải pháp thưa thớt, các phương thức chuyên dụng (bao gồm các phương pháp gradient gần) có tốc độ hội tụ nhanh hơn các phương pháp nâng cấp. Ông đưa ra một số tài liệu tham khảo.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.