Câu trả lời kỹ thuật hơn là bởi vì vấn đề tối ưu hóa bị ràng buộc có thể được viết dưới dạng số nhân Lagrange. Cụ thể, Lagrangian liên quan đến vấn đề tối ưu hóa bị ràng buộc được đưa ra bởi
trong đó là một số nhân được chọn để đáp ứng các ràng buộc của vấn đề. Do đó, các điều kiện đặt hàng đầu tiên (đủ để bạn làm việc với các hàm lồi phù hợp) cho vấn đề tối ưu hóa này có thể đạt được bằng cách phân biệt Lagrangian vớiL(β)=argminβ⎧⎩⎨∑i=1N(yi−∑j=1pxijβj)2⎫⎭⎬+μ{(1−α)∑j=1p|βj|+α∑j=1pβ2j}
μβvà đặt các đạo hàm bằng 0 (có một chút sắc thái hơn vì phần LASSO có các điểm không thể phân biệt được, nhưng có các phương pháp từ phân tích lồi để khái quát hóa đạo hàm để điều kiện thứ tự đầu tiên vẫn hoạt động). Rõ ràng là các điều kiện đặt hàng đầu tiên này giống hệt với các điều kiện đặt hàng đầu tiên của vấn đề không ràng buộc mà bạn đã viết ra.
Tuy nhiên, tôi nghĩ thật hữu ích khi xem tại sao nói chung, với những vấn đề tối ưu hóa này, người ta thường có thể nghĩ về vấn đề thông qua lăng kính của một vấn đề tối ưu hóa bị ràng buộc hoặc qua lăng kính của một vấn đề không bị ràng buộc. Cụ thể hơn, giả sử chúng ta có một vấn đề tối ưu hóa không bị ràng buộc theo dạng sau:
Chúng ta luôn có thể cố gắng giải quyết trực tiếp tối ưu hóa này, nhưng đôi khi, có thể có ý nghĩa để giải quyết vấn đề này thành thành phần phụ. Cụ thể, không khó để thấy rằng
Vì vậy, đối với giá trị cố định củamaxxf(x)+λg(x)
maxxf(x)+λg(x)=maxt(maxxf(x) s.t g(x)=t)+λt
λ(và giả sử các chức năng được tối ưu hóa thực sự đạt được tối ưu của chúng), chúng ta có thể liên kết với nó một giá trị để giải quyết vấn đề tối ưu hóa bên ngoài. Điều này cho chúng ta một loại ánh xạ từ các vấn đề tối ưu hóa không bị ràng buộc đến các vấn đề bị ràng buộc. Trong cài đặt cụ thể của bạn, vì mọi thứ đều hoạt động tốt cho hồi quy mạng đàn hồi, trên thực tế, ánh xạ này phải là một, vì vậy sẽ rất hữu ích khi có thể chuyển đổi giữa hai bối cảnh này tùy thuộc vào ứng dụng cụ thể nào hữu ích hơn. Nói chung, mối quan hệ giữa các vấn đề bị ràng buộc và không bị ràng buộc này có thể được xử lý kém hơn, nhưng vẫn có thể hữu ích để suy nghĩ về mức độ bạn có thể di chuyển giữa vấn đề bị ràng buộc và không bị ràng buộc.t∗
Chỉnh sửa: Theo yêu cầu, tôi sẽ bao gồm một phân tích cụ thể hơn cho hồi quy sườn, vì nó nắm bắt được các ý chính trong khi tránh phải xử lý các kỹ thuật liên quan đến tính không khác biệt của hình phạt LASSO. Nhắc lại, chúng tôi đang giải quyết vấn đề tối ưu hóa (theo ký hiệu ma trận):
argminβ{∑i=1Nyi−xTiβ}s.t.||β||2≤M
Đặt là giải pháp OLS (nghĩa là khi không có ràng buộc). Sau đó, tôi sẽ tập trung vào trường hợp(miễn là điều này tồn tại) vì nếu không, ràng buộc là không thú vị vì nó không ràng buộc. Lagrangian cho vấn đề này có thể được viết
Sau đó, khác biệt , chúng tôi nhận được các điều kiện đặt hàng đầu tiên:
chỉ là một hệ phương trình tuyến tính và do đó có thể được giải:
βOLSM<∣∣∣∣βOLS∣∣∣∣L(β)=argminβ{∑i=1Nyi−xTiβ}−μ⋅||β||2≤M
0=−2(∑i=1Nyixi+(∑i=1NxixTi+μI)β)
β^=(∑i=1NxixTi+μI)−1(∑i=1Nyixi)
cho một số lựa chọn số nhân . Số nhân sau đó được chọn đơn giản để biến ràng buộc thành đúng, tức là chúng ta cầnμ
⎛⎝(∑i=1NxixTi+μI)−1(∑i=1Nyixi)⎞⎠T⎛⎝(∑i=1NxixTi+μI)−1(∑i=1Nyixi)⎞⎠=M
tồn tại do LHS là đơn điệu trong . Phương trình này cung cấp ánh xạ rõ ràng từ bội số đến các ràng buộc, với
khi RHS tồn tại và
Ánh xạ này thực sự tương ứng với một cái gì đó khá trực quan. Các định lý phong bì cho chúng ta biếtμμ∈(0,∞)M∈(0,∣∣∣∣βOLS∣∣∣∣)limμ→0M(μ)=∣∣∣∣βOLS∣∣∣∣
limμ→∞M(μ)=0
μ(M)tương ứng với việc giảm biên do lỗi chúng tôi nhận được từ một thư giãn nhỏ của ràng buộc . Điều này giải thích tại sao khi tương ứng với. Một khi các ràng buộc không ràng buộc, không có giá trị trong việc thư giãn nó nữa, đó là lý do tại sao số nhân biến mất.Mμ→0M→||βOLS||