Thể hiện ràng buộc hồi quy LASSO thông qua tham số hình phạt

Đưa ra hai công thức tương đương của bài toán cho hồi quy LASSO, $\min(RSS + \lambda\sum|\beta_i|)$ và sao cho , làm thế nào chúng ta có thể thể hiện sự tương ứng một-một giữa và ? $\min(RSS)$ $\sum|\beta_i|\leq t$ $\lambda$ $t$

lasso

— Stefan Atanasov
nguồn

Bản sao có thể có của KKT so với công thức hồi quy lasso không giới hạn

— user795305

Bạn có thể sử dụng hệ số nhân Lagrange để đi giữa hai công thức này.

Câu trả lời cho câu hỏi của bạn xuất phát từ việc xem xét tính đối ngẫu Lagrangian. Điều này được thực hiện trong bài đăng mà tôi cho là trùng lặp trong nhận xét của mình với bài đăng của OP. Trong phần tiếp theo, tôi tìm ra những gì tôi thấy là một dẫn xuất sâu sắc hơn.

Thực sự, khi chúng tôi giải quyết một Lasso, chúng tôi đang cố gắng cùng nhau tối thiểu hóa và . Đó là, chúng tôi tìm kiếm . Điều này dường như không được xác định rõ vào lúc này, vì chúng ta biết có một số căng thẳng giữa hai mục tiêu này. Đây là những gì mọi người tối ưu hóa gọi là tối ưu hóa đa tiêu chuẩn . Hãy hình dung vấn đề này bằng cách vẽ cho nhiều '. (Lưu ý, ở đây , , được khởi tạo ngẫu nhiên và hệ số thực $\frac{1}{2n} \|y - X \beta\|_2^2 = RSS$ $\|\beta\|_1$ $\arg\min_\beta (\frac{1}{2n} \|y - X \beta\|_2^2, \|\beta\|_1)$ $\left(\frac{1}{2n} \|y - X \beta\|_2^2, \|\beta\|_1 \right)$ $\beta$ $p=5$ $n=100$ $X$ $\beta^*$ có khoảng một phần tư số mục của nó bằng không.)

Tại đây, và . Nghĩa là, trục dọc đo sự thiếu phù hợp và trục ngang đo kích thước của hệ số. Lưu ý rằng tôi cắt bỏ phần trên cùng của hình ảnh để rõ ràng. $F = \|\beta\|_1$ $G = \frac{1}{2n} \|y - X \beta\|_2^2$

Các điểm ở dưới cùng bên trái của cốt truyện là những điểm chúng tôi quan tâm. Những điểm này tương ứng với các giá trị của mà cả hai đều có định mức nhỏ và có lỗi nhỏ. Trong thực tế, đối với những điểm ở phía dưới bên trái, không có nào có cùng kích thước và kích thước nhỏ hơn hoặc cùng kích thước với sự phù hợp tốt hơn. Để chọn giữa các điểm này, được gọi là điểm tối ưu pareto , chúng ta cần xác định tầm quan trọng tương đối của sự phù hợp và kích thước, hai mục tiêu của chúng tôi. Điều này sẽ nhắc nhở chúng ta về các tham số điều chỉnh hoặc trong lasso không bị ràng buộc hoặc bị ràng buộc, tương ứng. Dưới đây chúng tôi vẽ màu xanh lục một số giải pháp Lasso, được tính toán từ glmnet, áp đặt trên biểu đồ trên. $\beta$ $\ell_1$ $\beta$ $\lambda$ $C$

Lưu ý rằng lasso tìm thấy chính xác các điểm tối ưu pareto. Điều này là rất đáng ngạc nhiên, mặc dù! Làm thế nào mà một mục tiêu đa chiều được tối ưu hóa bởi một mục tiêu một chiều? Quá trình này được gọi là mở rộng: chúng tôi lấy trọng số và hình thành vấn đềKhi cả hai mục tiêu đều lồi, mà chúng ở đây, bài toán mở rộng này tìm thấy tất cả các điểm tối ưu pareto. $\mu_1, \mu_2 \geq 0$

\arg min_{β \in R^{p}} μ_{1} (\frac{1}{2 n} ‖ y - X β ‖_{2}^{2}) + μ_{2} ‖ β ‖_{1} .

$\arg\min_{\beta \in \mathbb{R}^p} \mu_1 \left( \frac{1}{2n} \|y-X\beta\|_2^2 \right) + \mu_2 \|\beta\|_1.$

Giả sử , giả sử rằng cả hai mục tiêu đang được xem xét và viết , chúng tôi có rằng đây chỉ là lasso , ở dạng thông thường. Theo tính đối ngẫu của lagrangian, chúng ta biết rằng tồn tại từ để thay vào đó chúng ta có thể giải quyết vấn đề tương đương trong đó . $\mu_1 \neq 0$ $\lambda = \frac{\mu_2}{\mu_1}$ $\hat{\beta}^\textrm{unc} = \arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y-X\beta\|_2^2 + \lambda \|\beta\|_1,$ $C$ $\hat{\beta}^\textrm{con} = \arg\min_{\beta : \|\beta\|_1 \leq C} \frac{1}{2n} \|y-X\beta\|_2^2,$ $\hat{\beta}^\textrm{con} = \hat{\beta}^\textrm{unc}$

Bây giờ chúng ta hiểu rõ hơn về những gì chúng tôi đang cố gắng để giải quyết và có một hình dung tốt, chúng ta hãy nay tập trung vào việc tìm kiếm một mối quan hệ giữa các thông số điều chỉnh và . $\lambda$ $C$

Đối với một giá trị , ước tính lasso bị ràng buộc Sẽ là một trong những điểm xanh trong cốt truyện ở trên. Có thể tìm thấy cách Bằng cách tự sửa lỗi tại (đối với hệ số bình phương nhỏ nhất) và di chuyển xuống cho đến khi chúng ta có được mức độ phù hợp thấp nhất có thể. Đó là,Như chúng ta đã thấy ở trên, tương ứng với sự mở rộng của mục tiêu vectơ của chúng ta và do đó bằng với độ dốc tại điểm này: $C$ $\hat{\beta}^\textrm{con.}$ $\hat{\beta}^\textrm{con.}$ $\|\beta\|_1 = \mathrm{min}\{C, \|\hat{\beta}_\mathrm{LS}\|_1\}$ $\hat{\beta}_\mathrm{LS}$

C = ‖ {\hat{β}}^{unc} ‖_{1} .

$C = \|\hat{\beta}^\textrm{unc}\|_1.$

λ

$\lambda$

λ = - \frac{\partial \frac{1}{2 n} ‖ y - X β ‖_{2}^{2}}{\partial ‖ β ‖_{1}} ∣_{β = {\hat{β}}^{con}}

$\lambda = -\frac{\partial \frac{1}{2n} \|y - X \beta\|_2^2}{\partial \|\beta\|_1} \mid_{\beta = \hat{\beta}^\textrm{con}}$ (Lưu ý, công thức này dường như chỉ đúng với các hằng số. Có thể nhanh chóng tìm thấy chính xác từ các điều kiện đặt hàng đầu tiên, nhưng tôi muốn tìm cách thúc đẩy nó trực tiếp từ khung này.) Điều này tương ứng (thông qua quy tắc chuỗi) với câu trả lời đầu tiên trong bài đăng mà tôi đã liên kết như một bản sao có thể.

λ

$\lambda$

— người dùng795305
nguồn