Áp dụng điều kiện đối ngẫu và KKT cho bài toán LASSO


7

Tôi đang gặp một số khó khăn để hiểu làm thế nào tính đối ngẫu dẫn đến dạng phổ biến của vấn đề LASSO và với tình trạng Karush-Kuhn-Tucker được gọi là sự chậm chạp bổ sung. Tôi có hai câu hỏi:

  1. Chúng tôi biết rằng, đã đưa ra một vấn đề tối ưu hóa
    minxf(x)s.t.hi(x)0,i=1,,m

giải quyết vấn đề này tương đương với việc giải quyết vấn đề kép

maxλg(λ)s.t.λ0
với g(λ)=minλ{f(x)+i=1mλihi(x)}

Trong bài toán LASSO, số nguyên tố là

||yXβ||22s.t.||β||1t

vì vậy, nếu sự hiểu biết của tôi là chính xác, đối với bài toán kép, chúng ta sẽ nhận được

g(λ)=minβ||yXβ||22+λ(||β||1t)

Tuy nhiên, sự cố LASSO luôn được chỉ định là

minβ||yXβ||22+λ||β||1

tôi đang thiếu gì Có liên quan đến đạo hàm của một hằng số, là null?

  1. Câu hỏi thứ hai là: Tôi thấy nhiều tác giả trình bày giải pháp cho vấn đề LASSO bằng cách giải quyết điều kiện KKT cố định
    XT(yXβ)=λs

Tôi hiểu rằng, vì vấn đề là lồi, các điều kiện khả thi nguyên thủykép được thỏa mãn, dù sao tôi cũng không hiểu tại sao chúng ta không kiểm tra điều kiện độ chùng bổ sung .

Câu trả lời:


6

1) Bạn đang đi sai hướng bằng cách gọi trực tiếp đối ngẫu. Để có được từ

arg minβ:β1tyXβ22

đến

arg minβyXβ22+λβ1

bạn chỉ cần gọi số nhân Lagrange. (Xem, ví dụ Mục 5.1 của [1])

LM thường được thảo luận trong bối cảnh đối ngẫu khi dạy chúng, nhưng trong thực tế, bạn chỉ có thể chuyển đổi trực tiếp từ cái này sang cái khác mà không cần xem xét vấn đề kép.

Nếu bạn quan tâm đến vấn đề kép của Lasso, thì nó đã được giải quyết trên Slides 12 và 13 của [2]

2) Những gì bạn có thể đã thấy là điều kiện KKT Stationarity cho Lasso:

arg min12yXβ22+λβ1XT(yXβ^)+λs=0 for some sβ^1

trong đó được gọi là phân số phụ của định mức . (Đây thực chất chỉ là điều kiện "đạo hàm bằng 0 ở mức tối thiểu" tiêu chuẩn từ tính toán, nhưng được điều chỉnh cho không khác biệt.)β11

Chúng tôi biết phân biệt của if vì vậy phương trình này đưa ra một giải pháp dạng đóng chính xác cho lasso nếu chúng ta biết hỗ trợ và dấu hiệu của giải pháp . Cụ thể là|βi|=sign(βi)βi0

β^S^=(XS^TXS^)1(XS^Tyλsign(β^S^))

(Ngoài ra: giải pháp này làm cho hiệu ứng "co rút" của Lasso (so với OLS) rất rõ ràng.)

Tất nhiên, phần khó của việc giải lasso là tìm ra sự hỗ trợ và dấu hiệu của giải pháp, vì vậy điều này không hữu ích lắm trong thực tế.

Tuy nhiên, đây là một cấu trúc lý thuyết rất hữu ích và có thể được sử dụng để chứng minh rất nhiều tính chất tốt đẹp của Lasso; quan trọng nhất, nó cho phép chúng ta sử dụng kỹ thuật "nhân chứng kép nguyên thủy" để thiết lập các điều kiện theo đó Lasso phục hồi tập hợp các biến "thực". Xem Phần 11.4 của [3].

[1] S. Boyd và L. Vandenberghe. Tối ưu hoá trực quan. Có sẵn tại https://web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf

[2] http://www.stat.cmu.edu/~ryantibs/convexopt-F15/lectures/13-dual-corres.pdf

[3] T. Hastie, R. Tibshirani, M. Wainwright. Học thống kê với độ thưa thớt: Lasso và khái quát hóa. Có sẵn tại https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS_corrected_1.4.16.pdf

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.