Hồi quy góc nhỏ nhất so với Lasso

39

Hồi quy góc nhỏ nhất và Lasso có xu hướng tạo ra các đường chuẩn hóa rất giống nhau (giống hệt nhau trừ khi hệ số vượt qua 0).

Cả hai đều có thể phù hợp một cách hiệu quả bởi các thuật toán gần như giống hệt nhau.

Có bao giờ có bất kỳ lý do thực tế để thích một phương pháp hơn phương pháp khác?

regression lasso

— NPE
nguồn

Nếu bạn đánh giá lại các câu trả lời vào thời điểm này, bạn sẽ chọn một câu trả lời "được chấp nhận" khác chứ?

— Aaron Hall

13

Các định lý "không ăn trưa miễn phí" cho thấy rằng không có sự khác biệt giữa các thuật toán suy luận thống kê, tức là liệu LARS hay LASSO hoạt động tốt nhất phụ thuộc vào bản chất của tập dữ liệu cụ thể. Trong thực tế sau đó, tốt nhất là thử cả hai và sử dụng một số ước tính đáng tin cậy về hiệu suất tổng quát hóa để quyết định sử dụng cái nào trong hoạt động (hoặc sử dụng một bộ đồng phục). Vì sự khác biệt giữa LARS và LASSO là khá nhỏ, sự khác biệt về hiệu suất có thể cũng khá nhẹ, nhưng nói chung chỉ có một cách để tìm hiểu chắc chắn!

— Sao Hỏa Dikran
nguồn

Bạn có thể mở rộng về 'phương pháp tập hợp' có thể trong trường hợp cụ thể này không?

— chl

35

Khi được sử dụng ở chế độ theo giai đoạn, thuật toán LARS là một phương pháp tham lam không mang lại một công cụ ước lượng nhất quán có thể chứng minh được (nói cách khác, nó không hội tụ đến kết quả ổn định khi bạn tăng số lượng mẫu).

Ngược lại, LASSO (và do đó là thuật toán LARS khi được sử dụng trong chế độ LASSO) giải quyết vấn đề khớp dữ liệu lồi. Đặc biệt, vấn đề này (công cụ ước tính tuyến tính bị phạt L1) có rất nhiều đặc tính đã được chứng minh tốt đẹp (tính nhất quán, tính thưa thớt).

Do đó, tôi sẽ cố gắng luôn sử dụng LARS trong chế độ LASSO (hoặc sử dụng một bộ giải khác cho LASSO), trừ khi bạn có những lý do rất chính đáng để thích giai đoạn khôn ngoan.

— Gael Varoquaux
nguồn

9

LASSO không phải là một thuật toán cho mỗi người, mà là một toán tử.

Có nhiều cách khác nhau để rút ra các thuật toán hiệu quả cho các vấn đề thường xuyên của . Chẳng hạn, người ta có thể sử dụng lập trình bậc hai để họ giải quyết trực tiếp. Tôi đoán đây là những gì bạn gọi là LASSO. $\ell_1$

Một cái khác là LARS, rất phổ biến vì tính đơn giản của nó, kết nối với các thủ tục chuyển tiếp (nhưng không quá tham lam), bằng chứng rất xây dựng và khái quát hóa dễ dàng.

Thậm chí so với các bộ giải lập trình bậc hai hiện đại, LARS có thể hiệu quả hơn nhiều.

— Georgi
nguồn

9

Như đã đề cập trước đây, LARS là một phương pháp đặc biệt để giải quyết vấn đề Lasso, tức là vấn đề bình phương tối thiểu hóa không chuẩn hóa . Thành công của nó xuất phát từ thực tế là nó đòi hỏi một nỗ lực tiệm cận tương đương với hồi quy bình phương nhỏ nhất tiêu chuẩn, và do đó hiệu suất vượt trội hơn so với yêu cầu của giải pháp lập trình bậc hai. Các phần mở rộng sau này của LARS cũng nhấn mạnh vấn đề mạng đàn hồi tổng quát hơn trong đó bạn bao gồm tổng các thuật ngữ không định dạng và vào hàm bình phương nhỏ nhất. $l_1$ $l_1$ $l_2$

Mục đích của câu trả lời này là chỉ ra rằng LARS ngày nay dường như đã bị mê hoặc bởi các phương pháp tọa độ gốc và tọa độ ngẫu nhiên . Các phương pháp này dựa trên các thuật toán đặc biệt đơn giản, đồng thời hiệu suất có vẻ cao hơn LARS (thường là một hoặc hai bậc độ lớn nhanh hơn). Ví dụ xem bài báo này của Friedman et al.

Vì vậy, nếu bạn có kế hoạch thực hiện LARS, đừng. Sử dụng tọa độ gốc mất vài giờ.

— davidhigh
nguồn

1

+1 vì không triển khai LARS nhưng phối hợp gốc: nó có các cài đặt ở đó tốt hơn so với gốc tọa độ (ví dụ: đối với các vấn đề nhỏ và kích thước rất thưa thớt, hãy xem luận án của Julien Mairal để so sánh theo kinh nghiệm), nhưng đó là rất khó để thực hiện đúng, khó hơn nhiều so với việc phối hợp gốc.

— Gael Varoquaux

3

Tính toán của các giải pháp Lasso là một vấn đề lập trình bậc hai và có thể được giải quyết bằng các thuật toán phân tích số tiêu chuẩn. Nhưng thủ tục hồi quy góc nhỏ nhất là một cách tiếp cận tốt hơn. Thuật toán này khai thác cấu trúc đặc biệt của bài toán Lasso và cung cấp một cách hiệu quả để tính toán các giải pháp đồng thời cho tất cả các giá trị của . $\lambda$

Đây là ý kiến của tôi:

Câu hỏi của bạn có thể được chia thành hai phần. Trường hợp chiều cao và trường hợp chiều thấp. Mặt khác, nó phụ thuộc vào tiêu chí nào bạn sẽ sử dụng để chọn mô hình tối ưu. trong bài viết gốc của LARS, nó đã được chứng minh là tiêu chí để chọn mô hình tốt nhất và bạn cũng có thể thấy tiêu chí SVS và CV trong 'Thảo luận' của bài báo. Nói chung, có sự khác biệt nhỏ giữa LARS và Lasso và có thể bỏ qua hoàn toàn. $C_p$

Ngoài ra, LARS được tính toán nhanh và đáng tin cậy. Lasso rất nhanh nhưng có một sự khác biệt nhỏ giữa thuật toán khiến LARS chiến thắng thử thách tốc độ. Mặt khác, có các gói thay thế, ví dụ như trong R, được gọi là 'glmnet' hoạt động đáng tin cậy hơn gói lars (vì nó chung chung hơn).

Tóm lại, không có gì đáng kể có thể được xem xét về lars và lasso. Nó phụ thuộc vào bối cảnh bạn sẽ sử dụng mô hình.

Cá nhân tôi khuyên bạn nên sử dụng glmnet trong R trong cả trường hợp chiều cao và chiều thấp. hoặc nếu bạn quan tâm đến các tiêu chí khác nhau, bạn có thể sử dụng gói http://cran.r-project.org/web/packages/msgps/ .

— TPArrow
nguồn

0

Trong một số bối cảnh, phiên bản chính quy của giải pháp bình phương nhỏ nhất có thể thích hợp hơn. Ví dụ, thuật toán LASSO (toán tử co rút và chọn lọc tối thiểu tuyệt đối) tìm ra một giải pháp bình phương nhỏ nhất với ràng buộc là | β | 1, chỉ tiêu L1 của vectơ tham số, không lớn hơn một giá trị đã cho. Tương tự, nó có thể giải quyết việc giảm thiểu không bị ràng buộc đối với hình phạt bình phương nhỏ nhất với α | β | Đã thêm 1, trong đó α là hằng số (đây là dạng Lagrangian của bài toán bị ràng buộc.) Vấn đề này có thể được giải quyết bằng lập trình bậc hai hoặc các phương pháp tối ưu lồi tổng quát hơn, cũng như bằng các thuật toán cụ thể như thuật toán hồi quy góc nhỏ nhất. Công thức được chuẩn hóa L1 rất hữu ích trong một số bối cảnh do xu hướng thích các giải pháp có ít giá trị tham số khác hơn, giảm hiệu quả số lượng biến mà giải pháp đã cho là phụ thuộc. [11] Vì lý do này, LASSO và các biến thể của nó là nền tảng cho lĩnh vực cảm biến nén.

— mariana mềm hơn
nguồn

5

Với sự tôn trọng, điều này trông giống như một bản sao và dán trực tiếp từ Wikipedia và không thực sự trả lời câu hỏi.

— NPE

3

(-1) Ít nhất, bạn nên thừa nhận trích dẫn từ Wikipedia, § về phương pháp LASSO tại en.wikipedia.org/wiki/Least_squares !!! BTW bạn quên dán tham chiếu thứ 11.

— chl

Tôi quên đặt liên kết, đó là sự thật, nhưng dù sao tôi nghĩ rằng đó là một câu trả lời tốt cho câu hỏi này. Xin lỗi nếu tôi làm bạn nghĩ rằng tôi đã viết nó

— mariana nhẹ nhàng hơn

Sẽ hữu ích hơn khi tham khảo Trang Lasso trong trường hợp đó. Bây giờ, câu hỏi là về ưu và nhược điểm của LAR và Lasso, không phải về những gì Lasso thực sự làm. Thuật toán LARS có thể dễ dàng được sửa đổi để tạo ra các giải pháp cho các công cụ ước tính khác, như Lasso; nó hoạt động tốt trong trường hợp, nhưng nó là nhạy cảm với những tác động của tiếng ồn (bởi vì nó được dựa trên một refitting lặp đi lặp lại của các số dư), như trích dẫn từ scikit-learn.sourceforge.net/modules/glm.html .

n ≪ p

$n\ll p$

— chl