Điều này có thể bị tấn công theo một số cách, bao gồm các cách tiếp cận khá kinh tế thông qua các điều kiện của Karush, Kuhn, Tucker .
Dưới đây là một đối số thay thế khá cơ bản.
Giải pháp bình phương tối thiểu cho một thiết kế trực giao
Giả sử gồm các cột trực giao. Sau đó, giải pháp bình phương nhỏ nhất là
X
β^LS=(XTX)−1XTy=XTy.
Một số vấn đề tương đương
Thông qua hình thức Lagrangian, thật đơn giản để thấy rằng một vấn đề tương đương với vấn đề được xem xét trong câu hỏi là
minβ12∥y−Xβ∥22+γ∥β∥1.
Mở rộng thuật ngữ đầu tiên, chúng tôi nhận được và vì không chứa bất kỳ trong số các biến quan tâm, chúng tôi có thể loại bỏ nó và xem xét một vấn đề tương đương khác,
12yTy−yTXβ+12βTβyTy
minβ(−yTXβ+12∥β∥2)+γ∥β∥1.
Lưu ý rằng , vấn đề trước đó có thể được viết lại thành
β^LS=XTy
minβ∑i=1p−β^LSiβi+12β2i+γ|βi|.
Hàm mục tiêu của chúng tôi hiện là tổng của các mục tiêu, mỗi mục tiêu tương ứng với một biến riêng biệt , do đó , mỗi mục tiêu có thể được giải quyết riêng lẻ.βi
Tổng số bằng tổng số phần của nó
Sửa một nhất định . Sau đó, chúng tôi muốn giảm thiểu
i
Li=−β^LSiβi+12β2i+γ|βi|.
Nếu , thì chúng ta phải có vì nếu không chúng ta có thể lật dấu của nó và nhận giá trị thấp hơn cho hàm mục tiêu. Tương tự như vậy nếu , thì chúng ta phải chọn .β^LSi>0βi≥0β^LSi<0βi≤0
Trường hợp 1 : . Vì ,
và phân biệt điều này với và đặt giá trị bằng 0 , chúng tôi nhận được và điều này chỉ khả thi nếu phía bên phải là không có giá trị, vì vậy trong trường hợp này, giải pháp thực tế là
β^LSi>0βi≥0
Li=−β^LSiβi+12β2i+γβi,
βiβi=β^LSi−γβ^lassoi=(β^LSi−γ)+=sgn(β^LSi)(|β^LSi|−γ)+.
Trường hợp 2 : . Điều này ngụ ý chúng ta phải có và vì vậy
Khác biệt với và đặt bằng 0, chúng tôi nhận được . Nhưng, một lần nữa, để đảm bảo điều này là khả thi, chúng tôi cần , điều này đạt được bằng cách lấy
β^LSi≤0βi≤0
Li=−β^LSiβi+12β2i−γβi.
βiβi=β^LSi+γ=sgn(β^LSi)(|β^LSi|−γ)βi≤0β^lassoi=sgn(β^LSi)(|β^LSi|−γ)+.
Trong cả hai trường hợp, chúng tôi nhận được hình thức mong muốn, và vì vậy chúng tôi đã hoàn thành.
Chú thích cuối
Lưu ý rằng khi tăng, thì mỗinhất thiết phải giảm, do đó . Khi , chúng tôi khôi phục các giải pháp OLS và, cho, chúng tôi thu được cho tất cả .γ|β^lassoi|∥β^lasso∥1γ=0γ>maxi|β^LSi|β^lassoi=0i