Chúng thực sự tương đương vì bạn luôn có thể giải cứu (xem thêm bình luận của @ whuber). Từ góc độ lý thuyết, đó là một vấn đề thuận tiện nhưng theo tôi biết nó không cần thiết. Từ góc độ tính toán, tôi thực sự thấy khá khó chịu, vì vậy tôi thường sử dụng công thức đầu tiên nếu tôi đang thiết kế một thuật toán sử dụng chính quy.λ1/(2n)
Một câu chuyện nhỏ: Khi tôi mới bắt đầu tìm hiểu về các phương pháp bị phạt, tôi cảm thấy khó chịu khi mang đi khắp nơi trong công việc của mình nên tôi thích bỏ qua nó - nó thậm chí còn đơn giản hóa một số tính toán của tôi. Lúc đó công việc của tôi chủ yếu là tính toán. Gần đây tôi đã làm công việc lý thuyết, và tôi đã tìm thấy không thể thiếu (thậm chí so với, giả sử, ).1/(2n)1/(2n)1/n
Thêm chi tiết: Khi bạn cố gắng phân tích hành vi của Lasso như chức năng của cỡ mẫu , bạn thường phải xử lý tổng các biến ngẫu nhiên iid và trong thực tế, việc phân tích các khoản tiền đó sau khi bình thường hóa bằng - -think luật của số lượng lớn / định lý giới hạn trung tâm (hoặc nếu bạn muốn có được ưa thích, tập trung của biện pháp và lý thuyết quá trình thực nghiệm). Nếu bạn không có thuật ngữ trước tổn thất, cuối cùng bạn sẽ thay đổi kích thước một cái gì đó vào cuối phân tích để bắt đầu với nó ở đó tốt hơn để bắt đầu với nó. Các là thuận tiện vì nó hủy bỏ ra một số yếu tố gây phiền nhiễu củann1/n1/22 trong phân tích (ví dụ khi bạn lấy đạo hàm của số hạng mất bình phương).
Một cách khác để nghĩ về điều này là khi thực hiện lý thuyết, chúng ta thường quan tâm đến hành vi của các giải pháp khi tăng - nghĩa là không phải là một số lượng cố định. Trong thực tế, khi chúng tôi chạy Lasso trên một số tập dữ liệu cố định, thực sự được cố định từ góc độ của thuật toán / tính toán. Vì vậy, có thêm yếu tố bình thường hóa phía trước không phải là tất cả hữu ích.nnn
Những điều này có vẻ như là vấn đề khó chịu về sự thuận tiện, nhưng sau khi dành đủ thời gian để thao túng các loại bất bình đẳng này, tôi đã học cách yêu .1/(2n)