Kết nối giữa các công thức Lasso

$L$

min_{β} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1}

$\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \;$

Nhưng thường thì tôi thấy công cụ ước tính Lasso có thể được viết là

{\hat{β}}_{n} (λ) = \arg min_{β} {\frac{1}{2 n} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1}}

$\hat{\beta}_n(\lambda) = \displaystyle\arg \min_{\beta} \{\frac {1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \}$

Câu hỏi của tôi là, tương đương? Thuật ngữ $\frac {1}{2n}$ xuất hiện ở đâu? Các kết nối giữa hai công thức không rõ ràng đối với tôi.

[Cập nhật] Tôi đoán câu hỏi bao phấn tôi nên hỏi là,

Tại sao có công thức thứ hai? Lợi thế, về mặt lý thuyết hay tính toán, của việc xây dựng vấn đề theo cách đó là gì?

lasso

— Aaron Zeng
nguồn

Nếu bạn đặt trong công thức thứ hai bằng lần trong công thức thứ nhất, thì hàm mục tiêu trong công thức thứ hai bằng lần hàm mục tiêu trong công thức thứ nhất. Trong thực tế, bạn chỉ đơn thuần thay đổi các đơn vị đo lường tổn thất. Làm thế nào để bạn cho rằng điều đó sẽ thay đổi các giá trị tối ưu của ?

λ

$\lambda$

1 / (2 n)

$1/(2n)$

λ

$\lambda$

1 / (2 n)

$1/(2n)$

β

$\beta$

— whuber

Cảm ơn, @Whuber. Điều đó có ý nghĩa với tôi. Vậy thì tại sao lại có công thức sau? Lợi thế, về mặt lý thuyết hay tính toán, của việc xây dựng vấn đề theo cách đó là gì?

— Aaron Zeng

Chúng thực sự tương đương vì bạn luôn có thể giải cứu (xem thêm bình luận của @ whuber). Từ góc độ lý thuyết, đó là một vấn đề thuận tiện nhưng theo tôi biết nó không cần thiết. Từ góc độ tính toán, tôi thực sự thấy khá khó chịu, vì vậy tôi thường sử dụng công thức đầu tiên nếu tôi đang thiết kế một thuật toán sử dụng chính quy. $\lambda$ $1/(2n)$

Một câu chuyện nhỏ: Khi tôi mới bắt đầu tìm hiểu về các phương pháp bị phạt, tôi cảm thấy khó chịu khi mang đi khắp nơi trong công việc của mình nên tôi thích bỏ qua nó - nó thậm chí còn đơn giản hóa một số tính toán của tôi. Lúc đó công việc của tôi chủ yếu là tính toán. Gần đây tôi đã làm công việc lý thuyết, và tôi đã tìm thấy không thể thiếu (thậm chí so với, giả sử, ). $1/(2n)$ $1/(2n)$ $1/n$

Thêm chi tiết: Khi bạn cố gắng phân tích hành vi của Lasso như chức năng của cỡ mẫu , bạn thường phải xử lý tổng các biến ngẫu nhiên iid và trong thực tế, việc phân tích các khoản tiền đó sau khi bình thường hóa bằng - -think luật của số lượng lớn / định lý giới hạn trung tâm (hoặc nếu bạn muốn có được ưa thích, tập trung của biện pháp và lý thuyết quá trình thực nghiệm). Nếu bạn không có thuật ngữ trước tổn thất, cuối cùng bạn sẽ thay đổi kích thước một cái gì đó vào cuối phân tích để bắt đầu với nó ở đó tốt hơn để bắt đầu với nó. Các là thuận tiện vì nó hủy bỏ ra một số yếu tố gây phiền nhiễu của $n$ $n$ $1/n$ $1/2$ $2$ trong phân tích (ví dụ khi bạn lấy đạo hàm của số hạng mất bình phương).

Một cách khác để nghĩ về điều này là khi thực hiện lý thuyết, chúng ta thường quan tâm đến hành vi của các giải pháp khi tăng - nghĩa là không phải là một số lượng cố định. Trong thực tế, khi chúng tôi chạy Lasso trên một số tập dữ liệu cố định, thực sự được cố định từ góc độ của thuật toán / tính toán. Vì vậy, có thêm yếu tố bình thường hóa phía trước không phải là tất cả hữu ích. $n$ $n$ $n$

Những điều này có vẻ như là vấn đề khó chịu về sự thuận tiện, nhưng sau khi dành đủ thời gian để thao túng các loại bất bình đẳng này, tôi đã học cách yêu . $1/(2n)$

— JohnA
nguồn

Một khi bạn nhận ra những hằng số bình thường hóa đó để làm gì, bạn bắt đầu nhìn thấy chúng ở mọi nơi .

— Matthew Drury

Cảm ơn bạn đã giải thích này. Chúng tôi rất tự hào khi đọc những trải nghiệm tuyệt vời của bạn trong lĩnh vực này. Cảm ơn bạn một lần nữa

— Christina