Hiển thị sự tương đương giữa Hồi quy thường xuyên Norm và Hồi quy ràng buộc định mức bằng KKT


11

Theo tài liệu tham khảo Quyển 1 , Quyển 2giấy .

Nó đã được đề cập rằng có một sự tương đương giữa hồi quy chính quy (Ridge, LASSO và Elastic Net) và các công thức ràng buộc của chúng.

Tôi cũng đã xem xét Xác thực chéo 1Xác thực chéo 2 , nhưng tôi không thể thấy câu trả lời rõ ràng cho thấy sự tương đương hoặc logic.

Câu hỏi của tôi là

Làm thế nào để thể hiện sự tương đương đó bằng cách sử dụng Karush Ku Kuhn Tucker (KKT)?

Các công thức sau đây là cho hồi quy Ridge.

cây rơm

GHI CHÚ

Câu hỏi này không phải là bài tập về nhà. Nó chỉ để tăng sự hiểu biết của tôi về chủ đề này.

CẬP NHẬT

Tôi chưa có ý tưởng nào.


Tại sao bạn cần nhiều hơn 1 câu trả lời? Câu trả lời hiện tại xuất hiện để giải quyết câu hỏi một cách toàn diện. Nếu bạn muốn tìm hiểu thêm về các phương pháp tối ưu hóa, Convex Optimization Lieven Vandenberghe và Stephen P. Boyd là một nơi tốt để bắt đầu.
Sycorax nói phục hồi Monica

@Sycorax, cảm ơn ý kiến ​​của bạn và cuốn sách bạn cung cấp cho tôi. Câu trả lời không quá rõ ràng đối với tôi và tôi không thể yêu cầu làm rõ hơn. Do đó, nhiều hơn một câu trả lời có thể cho tôi thấy một quan điểm và cách mô tả khác nhau.
jeza

@jeza, câu trả lời của tôi còn thiếu gì?
Royi

1
Vui lòng nhập câu hỏi của bạn dưới dạng văn bản, không chỉ đăng một bức ảnh (xem tại đây ).
gung - Tái lập Monica

Câu trả lời:


10

Câu trả lời kỹ thuật hơn là bởi vì vấn đề tối ưu hóa bị ràng buộc có thể được viết dưới dạng số nhân Lagrange. Cụ thể, Lagrangian liên quan đến vấn đề tối ưu hóa bị ràng buộc được đưa ra bởi trong đó là một số nhân được chọn để đáp ứng các ràng buộc của vấn đề. Do đó, các điều kiện đặt hàng đầu tiên (đủ để bạn làm việc với các hàm lồi phù hợp) cho vấn đề tối ưu hóa này có thể đạt được bằng cách phân biệt Lagrangian với

L(β)=argminβ{i=1N(yij=1pxijβj)2}+μ{(1α)j=1p|βj|+αj=1pβj2}
μβvà đặt các đạo hàm bằng 0 (có một chút sắc thái hơn vì phần LASSO có các điểm không thể phân biệt được, nhưng có các phương pháp từ phân tích lồi để khái quát hóa đạo hàm để điều kiện thứ tự đầu tiên vẫn hoạt động). Rõ ràng là các điều kiện đặt hàng đầu tiên này giống hệt với các điều kiện đặt hàng đầu tiên của vấn đề không ràng buộc mà bạn đã viết ra.

Tuy nhiên, tôi nghĩ thật hữu ích khi xem tại sao nói chung, với những vấn đề tối ưu hóa này, người ta thường có thể nghĩ về vấn đề thông qua lăng kính của một vấn đề tối ưu hóa bị ràng buộc hoặc qua lăng kính của một vấn đề không bị ràng buộc. Cụ thể hơn, giả sử chúng ta có một vấn đề tối ưu hóa không bị ràng buộc theo dạng sau: Chúng ta luôn có thể cố gắng giải quyết trực tiếp tối ưu hóa này, nhưng đôi khi, có thể có ý nghĩa để giải quyết vấn đề này thành thành phần phụ. Cụ thể, không khó để thấy rằng Vì vậy, đối với giá trị cố định của

maxxf(x)+λg(x)
maxxf(x)+λg(x)=maxt(maxxf(x) s.t g(x)=t)+λt
λ(và giả sử các chức năng được tối ưu hóa thực sự đạt được tối ưu của chúng), chúng ta có thể liên kết với nó một giá trị để giải quyết vấn đề tối ưu hóa bên ngoài. Điều này cho chúng ta một loại ánh xạ từ các vấn đề tối ưu hóa không bị ràng buộc đến các vấn đề bị ràng buộc. Trong cài đặt cụ thể của bạn, vì mọi thứ đều hoạt động tốt cho hồi quy mạng đàn hồi, trên thực tế, ánh xạ này phải là một, vì vậy sẽ rất hữu ích khi có thể chuyển đổi giữa hai bối cảnh này tùy thuộc vào ứng dụng cụ thể nào hữu ích hơn. Nói chung, mối quan hệ giữa các vấn đề bị ràng buộc và không bị ràng buộc này có thể được xử lý kém hơn, nhưng vẫn có thể hữu ích để suy nghĩ về mức độ bạn có thể di chuyển giữa vấn đề bị ràng buộc và không bị ràng buộc.t

Chỉnh sửa: Theo yêu cầu, tôi sẽ bao gồm một phân tích cụ thể hơn cho hồi quy sườn, vì nó nắm bắt được các ý chính trong khi tránh phải xử lý các kỹ thuật liên quan đến tính không khác biệt của hình phạt LASSO. Nhắc lại, chúng tôi đang giải quyết vấn đề tối ưu hóa (theo ký hiệu ma trận):

argminβ{i=1NyixiTβ}s.t.||β||2M

Đặt là giải pháp OLS (nghĩa là khi không có ràng buộc). Sau đó, tôi sẽ tập trung vào trường hợp(miễn là điều này tồn tại) vì nếu không, ràng buộc là không thú vị vì nó không ràng buộc. Lagrangian cho vấn đề này có thể được viết Sau đó, khác biệt , chúng tôi nhận được các điều kiện đặt hàng đầu tiên: chỉ là một hệ phương trình tuyến tính và do đó có thể được giải: βOLSM<||βOLS||

L(β)=argminβ{i=1NyixiTβ}μ||β||2M
0=2(i=1Nyixi+(i=1NxixiT+μI)β)
β^=(i=1NxixiT+μI)1(i=1Nyixi)
cho một số lựa chọn số nhân . Số nhân sau đó được chọn đơn giản để biến ràng buộc thành đúng, tức là chúng ta cầnμ

((i=1NxixiT+μI)1(i=1Nyixi))T((i=1NxixiT+μI)1(i=1Nyixi))=M
tồn tại do LHS là đơn điệu trong . Phương trình này cung cấp ánh xạ rõ ràng từ bội số đến các ràng buộc, với khi RHS tồn tại và Ánh xạ này thực sự tương ứng với một cái gì đó khá trực quan. Các định lý phong bì cho chúng ta biếtμμ(0,)M(0,||βOLS||)
limμ0M(μ)=||βOLS||
limμM(μ)=0
μ(M)tương ứng với việc giảm biên do lỗi chúng tôi nhận được từ một thư giãn nhỏ của ràng buộc . Điều này giải thích tại sao khi tương ứng với. Một khi các ràng buộc không ràng buộc, không có giá trị trong việc thư giãn nó nữa, đó là lý do tại sao số nhân biến mất.Mμ0M||βOLS||


bạn có thể vui lòng cung cấp cho chúng tôi câu trả lời chi tiết từng bước với một ví dụ thực tế nếu có thể.
jeza

Rất cám ơn, tại sao bạn không đề cập đến KKT? Tôi không quen thuộc với lĩnh vực này, vì vậy hãy đối xử với tôi như một học sinh trung học.
jeza

Các điều kiện KKT trong trường hợp này là sự khái quát hóa các điều kiện thứ tự đầu tiên mà tôi đề cập bằng cách phân biệt Lagrangian và đặt đạo hàm bằng 0. Vì trong ví dụ này, các ràng buộc giữ bằng đẳng thức, chúng ta không cần các điều kiện KKT trong đầy đủ nói chung. Trong các trường hợp phức tạp hơn, tất cả những gì xảy ra là một số bất đẳng thức trên trở thành bất đẳng thức và hệ số nhân trở thành 0 cho các ràng buộc trở thành không ràng buộc. Ví dụ: đây chính xác là những gì xảy ra khiở trên. M>||βOLS||
stats_model

3

Có một phân tích tuyệt vời của stats_model trong câu trả lời của anh ấy .

Tôi đã thử trả lời câu hỏi tương tự tại The Proof of Equivalent Formula of Ridge Regression .

Tôi sẽ có nhiều cách tiếp cận Hand On cho trường hợp này.
Hãy thử xem ánh xạ giữa và trong 2 mô hình.tλ

Như tôi đã viết và có thể được nhìn thấy từ stats_model trong phân tích của mình , ánh xạ phụ thuộc vào dữ liệu. Do đó, chúng tôi sẽ chọn một nhận thức cụ thể của vấn đề. Tuy nhiên, mã và phác thảo giải pháp sẽ thêm trực giác cho những gì đang diễn ra.

Chúng tôi sẽ so sánh 2 mô hình sau:

The Regularized Model: argminx12Axy22+λx22

The Constrained Model: argminx12Axy22subject tox22t

Giả sử rằng là giải pháp của mô hình chính quy và là giải pháp của mô hình bị ràng buộc. x^x~

Chúng tôi đang xem xét ánh xạ từ đến sao cho . Nhìn vào giải pháp của tôi để giải quyết các bình phương tối thiểu bình thường, người ta có thể thấy rằng việc giải Mô hình bị ràng buộc liên quan đến việc giải Mô hình chính quy và tìm khớp với (Mã thực tế được trình bày trong Least Squares với Euclidean ( ) Ràng buộc định mức ).tλx = ~ x λ t L 2x^=x~
λtL2

Vì vậy, chúng tôi sẽ chạy cùng một bộ giải và với mỗi chúng tôi sẽ hiển thị tối ưu .tλ

Bộ giải cơ bản giải quyết:

argλλsubject to(ATA+2λI)1ATb22t=0

Vì vậy, đây là Ma trận của chúng tôi:

mA =

   -0.0716    0.2384   -0.6963   -0.0359
    0.5794   -0.9141    0.3674    1.6489
   -0.1485   -0.0049    0.3248   -1.7484
    0.5391   -0.4839   -0.5446   -0.8117
    0.0023    0.0434    0.5681    0.7776
    0.6104   -0.9808    0.6951   -1.1300

Và đây là vector của chúng tôi:

vB =

    0.7087
   -1.2776
    0.0753
    1.1536
    1.2268
    1.5418

Đây là ánh xạ:

nhập mô tả hình ảnh ở đây

Như có thể thấy ở trên, với giá trị đủ cao của tham số như mong đợi.tλ=0

Phóng to phạm vi [0, 10]:

nhập mô tả hình ảnh ở đây

Mã đầy đủ có sẵn trên Kho lưu trữ GitHub được xác thực chéo của StackExchange .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.