Khi nào nên sử dụng phương pháp chính quy cho hồi quy?

83

Trong trường hợp nào người ta nên xem xét sử dụng các phương pháp chính quy (hồi quy, lasso hoặc hồi quy góc nhỏ nhất) thay vì OLS?

Trong trường hợp điều này giúp điều khiển cuộc thảo luận, mối quan tâm chính của tôi là cải thiện độ chính xác dự đoán.

— NPE
nguồn

75

Câu trả lời ngắn: Bất cứ khi nào bạn phải đối mặt với một trong những tình huống sau:

số lượng lớn các biến hoặc tỷ lệ thấp của không. quan sát để không. các biến (bao gồm cả trường hợp ), $n\ll p$
cộng tác cao,
tìm kiếm một giải pháp thưa thớt (nghĩa là lựa chọn tính năng nhúng khi ước tính các tham số mô hình) hoặc
kế toán cho các biến nhóm trong tập dữ liệu chiều cao.

Hồi quy sườn nói chung mang lại dự đoán tốt hơn giải pháp OLS, thông qua sự thỏa hiệp tốt hơn giữa sai lệch và phương sai. Hạn chế chính của nó là tất cả các yếu tố dự đoán được giữ trong mô hình, vì vậy sẽ không thú vị lắm nếu bạn tìm kiếm một mô hình tuyệt vời hoặc muốn áp dụng một số loại lựa chọn tính năng.

Để đạt được độ thưa thớt, Lasso thích hợp hơn nhưng nó sẽ không nhất thiết mang lại kết quả tốt khi có cộng tuyến cao (người ta đã quan sát thấy rằng nếu các yếu tố dự đoán có tương quan cao, hiệu suất dự đoán của Lasso bị chi phối bởi hồi quy sườn núi). Vấn đề thứ hai với hình phạt L1 là giải pháp Lasso không được xác định duy nhất khi số lượng biến lớn hơn số lượng đối tượng (đây không phải là trường hợp hồi quy sườn). Hạn chế cuối cùng của Lasso là nó có xu hướng chỉ chọn một biến trong số một nhóm các yếu tố dự đoán có tương quan cặp cao. Trong trường hợp này, có các giải pháp thay thế như nhóm (nghĩa là đạt được độ co rút trên khối đồng biến, đó là một số khối hệ số hồi quy chính xác bằng 0) hoặc hợp nhấtdây cột ngựa. Các đồ họa Lasso cũng cung cấp tính năng đầy hứa hẹn cho GGMs (xem R glasso gói).

Nhưng, chắc chắn, các elasticnet tiêu chí, đó là sự kết hợp của L1 và L2 phạt đạt được cả hai co rút và lựa chọn biến tự động, và nó cho phép để giữ cho biến trong trường hợp . Theo sau Zou và Hastie (2005), nó được định nghĩa là đối số thu nhỏ (trên ) $m>p$ $n\ll p$ $\beta$

L (λ_{1}, λ_{2}, β) = ‖ Y - X β ‖^{2} + λ_{2} ‖ β ‖^{2} + λ_{1} ‖ β ‖_{1}

$L(\lambda_1,\lambda_2,\mathbf{\beta}) = \|Y-X\beta\|^2 + \lambda_2\|\beta\|^2 + \lambda_1\|\beta\|_1$

trong đó và. $\|\beta\|^2=\sum_{j=1}^p\beta_j^2$ $\|\beta\|^1=\sum_{j=1}^p|\beta_j |$

Lasso có thể được tính toán bằng thuật toán dựa trên gốc tọa độ như được mô tả trong bài báo gần đây của Friedman và coll., Đường dẫn chính quy cho các mô hình tuyến tính tổng quát thông qua tọa độ tọa độ (JSS, 2010) hoặc thuật toán LARS. Trong R, các gói bị phạt , lars hoặc biglars và glmnet là các gói hữu ích; trong Python, có bộ công cụ scikit.learn , với tài liệu mở rộng về các thuật toán được sử dụng để áp dụng cả ba loại sơ đồ chính quy.

Đối với các tài liệu tham khảo chung, trang Lasso chứa hầu hết những gì cần thiết để bắt đầu với hồi quy Lasso và các chi tiết kỹ thuật về hình phạt L1, và câu hỏi liên quan này có các tài liệu tham khảo thiết yếu, Khi nào tôi nên sử dụng lasso vs ridge?

— chl
nguồn

1

Điều gì sẽ xảy ra nếu tôi có nhiều quan sát với tương đối ít biến số, nhưng tỷ lệ tín hiệu trên tạp âm rất thấp? Trên thực tế, quá thấp là một vấn đề rất thực tế. Chính quy sẽ là một điều hợp lý để thử và xem xét để cải thiện độ chính xác dự đoán?

— NPE

1

@aix Nó phụ thuộc vào những gì bạn thực sự gọi vài biến, và loại biến bạn đang xử lý. Nhưng tôi nghĩ rằng một cách tiếp cận sườn núi sẽ được ưa thích trong trường hợp của bạn. Bạn cũng có thể xem Boost Boost Ridge Regression (Tutz & Binder, 2005). Ước tính ML hình phạt cũng được đề xuất như một phương pháp tích hợp để ngăn chặn quá mức; xem ví dụ: Ước tính khả năng tối đa bị phạt để dự đoán kết quả nhị phân: Moons KG, Donders AR, Steyerberg EW, Harrell FE. J. Lâm sàng. Dịch tễ. 2004, 57 (12): 1262 Từ70.

— chl

20

Một lý do biện minh cho việc sử dụng hồi quy sườn là giải pháp của nó là giá trị trung bình sau được đưa ra bình thường trước các hệ số. Đó là, nếu bạn quan tâm đến lỗi bình phương và bạn tin vào một bình thường trước đó, các ước tính sườn núi là tối ưu.

Tương tự, ước tính lasso là chế độ sau theo cấp số nhân gấp đôi trước các hệ số của bạn. Điều này là tối ưu theo hàm mất không một.

Trong thực tế, các kỹ thuật này thường cải thiện độ chính xác dự đoán trong các tình huống mà bạn có nhiều biến tương quan và không có nhiều dữ liệu. Trong khi công cụ ước tính OLS là không thiên vị tuyến tính tốt nhất, nó có phương sai cao trong các tình huống này. Nếu bạn nhìn vào sự đánh đổi sai lệch sai lệch, độ chính xác dự đoán sẽ được cải thiện bởi vì sự gia tăng nhỏ về độ lệch sẽ được bù đắp nhiều hơn bởi sự giảm lớn của phương sai.

— ncray
nguồn