Thể hiện ràng buộc hồi quy LASSO thông qua tham số hình phạt


7

Đưa ra hai công thức tương đương của bài toán cho hồi quy LASSO, min(RSS+λ|βi|)và sao cho , làm thế nào chúng ta có thể thể hiện sự tương ứng một-một giữa và ?min(RSS)|βi|tλt



Bạn có thể sử dụng hệ số nhân Lagrange để đi giữa hai công thức này.

Câu trả lời:


6

Câu trả lời cho câu hỏi của bạn xuất phát từ việc xem xét tính đối ngẫu Lagrangian. Điều này được thực hiện trong bài đăng mà tôi cho là trùng lặp trong nhận xét của mình với bài đăng của OP. Trong phần tiếp theo, tôi tìm ra những gì tôi thấy là một dẫn xuất sâu sắc hơn.

Thực sự, khi chúng tôi giải quyết một Lasso, chúng tôi đang cố gắng cùng nhau tối thiểu hóa và . Đó là, chúng tôi tìm kiếm . Điều này dường như không được xác định rõ vào lúc này, vì chúng ta biết có một số căng thẳng giữa hai mục tiêu này. Đây là những gì mọi người tối ưu hóa gọi là tối ưu hóa đa tiêu chuẩn . Hãy hình dung vấn đề này bằng cách vẽ cho nhiều '. (Lưu ý, ở đây , , được khởi tạo ngẫu nhiên và hệ số thực12nyXβ22=RSSβ1argminβ(12nyXβ22,β1)(12nyXβ22,β1)βp=5n=100Xβ có khoảng một phần tư số mục của nó bằng không.)

giá trị đối tượng có thể đạt được

Tại đây, và . Nghĩa là, trục dọc đo sự thiếu phù hợp và trục ngang đo kích thước của hệ số. Lưu ý rằng tôi cắt bỏ phần trên cùng của hình ảnh để rõ ràng.F=β1G=12nyXβ22

Các điểm ở dưới cùng bên trái của cốt truyện là những điểm chúng tôi quan tâm. Những điểm này tương ứng với các giá trị của mà cả hai đều có định mức nhỏ và có lỗi nhỏ. Trong thực tế, đối với những điểm ở phía dưới bên trái, không có nào có cùng kích thước và kích thước nhỏ hơn hoặc cùng kích thước với sự phù hợp tốt hơn. Để chọn giữa các điểm này, được gọi là điểm tối ưu pareto , chúng ta cần xác định tầm quan trọng tương đối của sự phù hợp và kích thước, hai mục tiêu của chúng tôi. Điều này sẽ nhắc nhở chúng ta về các tham số điều chỉnh hoặc trong lasso không bị ràng buộc hoặc bị ràng buộc, tương ứng. Dưới đây chúng tôi vẽ màu xanh lục một số giải pháp Lasso, được tính toán từ glmnet, áp đặt trên biểu đồ trên.β1βλC

giải pháp Lasso áp đặt

Lưu ý rằng lasso tìm thấy chính xác các điểm tối ưu pareto. Điều này là rất đáng ngạc nhiên, mặc dù! Làm thế nào mà một mục tiêu đa chiều được tối ưu hóa bởi một mục tiêu một chiều? Quá trình này được gọi là mở rộng: chúng tôi lấy trọng số và hình thành vấn đềKhi cả hai mục tiêu đều lồi, mà chúng ở đây, bài toán mở rộng này tìm thấy tất cả các điểm tối ưu pareto.μ1,μ20

argminβRpμ1(12nyXβ22)+μ2β1.

Giả sử , giả sử rằng cả hai mục tiêu đang được xem xét và viết , chúng tôi có rằng đây chỉ là lasso , ở dạng thông thường. Theo tính đối ngẫu của lagrangian, chúng ta biết rằng tồn tại từ để thay vào đó chúng ta có thể giải quyết vấn đề tương đương trong đó .μ10λ=μ2μ1β^unc=argminβRp12nyXβ22+λβ1,Cβ^con=argminβ:β1C12nyXβ22,β^con=β^unc

Bây giờ chúng ta hiểu rõ hơn về những gì chúng tôi đang cố gắng để giải quyết và có một hình dung tốt, chúng ta hãy nay tập trung vào việc tìm kiếm một mối quan hệ giữa các thông số điều chỉnh và .λC

Đối với một giá trị , ước tính lasso bị ràng buộc Sẽ là một trong những điểm xanh trong cốt truyện ở trên. Có thể tìm thấy cách Bằng cách tự sửa lỗi tại (đối với hệ số bình phương nhỏ nhất) và di chuyển xuống cho đến khi chúng ta có được mức độ phù hợp thấp nhất có thể. Đó là,Như chúng ta đã thấy ở trên, tương ứng với sự mở rộng của mục tiêu vectơ của chúng ta và do đó bằng với độ dốc tại điểm này:Cβ^con.β^con.β1=min{C,β^LS1}β^LS

C=β^unc1.
λ
λ=12nyXβ22β1β=β^con
(Lưu ý, công thức này dường như chỉ đúng với các hằng số. Có thể nhanh chóng tìm thấy chính xác từ các điều kiện đặt hàng đầu tiên, nhưng tôi muốn tìm cách thúc đẩy nó trực tiếp từ khung này.) Điều này tương ứng (thông qua quy tắc chuỗi) với câu trả lời đầu tiên trong bài đăng mà tôi đã liên kết như một bản sao có thể.λ
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.