Định mức của Ridge & LASSO


12

Bài đăng này theo sau bài này: Tại sao ước tính sườn núi trở nên tốt hơn OLS bằng cách thêm một hằng số vào đường chéo?

Đây là câu hỏi của tôi:

Theo như tôi biết, chính quy hóa sườn núi sử dụng -norm (khoảng cách euclide). Nhưng tại sao chúng ta sử dụng bình phương của định mức này? (một ứng dụng trực tiếp của sẽ dẫn đến căn bậc hai của tổng bình phương beta).222

Để so sánh, chúng tôi không làm điều này cho LASSO, sử dụng -norm để chuẩn hóa. Nhưng ở đây, đó là định mức "thực" (chỉ bằng tổng bình phương của các giá trị tuyệt đối beta và không phải là bình phương của tổng này).111

Ai đó có thể giúp tôi làm rõ?


2
Thuật ngữ phạt trong hồi quy sườn là định mức L2 bình phương. Xem các slide này được viết bởi Tibshirani làm ví dụ (slide 7) stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdf Xem thêm tại đây en.wikipedia.org/wiki/Tikhonov_THERization
boscovich

Điểm nhỏ của việc làm rõ, đây là những slide từ Ryan Tibshirani chứ không phải Rob.
Ellis Valentiner ngày

ok, cảm ơn rất nhiều vì đã làm rõ Nhưng tôi không hiểu tại sao bình phương cho L2 và không bình phương cho L1. Chúng ta không có một công thức chung cho bất kỳ loại chính quy nào?
PLOTZ

@ user12202013: cảm ơn bạn đã chỉ ra điều đó. Tôi đã không nhận thấy điều đó.
boscovich

Câu trả lời:


9

Ridgelasso là hai cách chính quy và hồi quy. Hồi quy Lasso áp đặt một ràng buộc đối với tổng các hệ số tuyệt đối:

iβi2=||β||1

Hồi quy sườn áp đặt một ràng buộc của tổng các khác biệt bình phương:

iβi2=iβi22=||βi||22

Bạn đề nghị giới thiệu thậm chí một tiêu chuẩn khác, độ dài euclide của các hệ số:

iβi2=||βi||2

Sự khác biệt giữa hồi quy Ridge và độ dài euclide là bình phương. Điều này không thay đổi việc giải thích chính quy. Trong khi cả sườn núi và chiều dài euclide đều đều về 0, hồi quy sườn cũng khác nhau về lượng chính quy. Các hệ số xa hơn từ 0 kéo mạnh hơn về 0. Điều này làm cho nó ổn định hơn xung quanh 0 vì sự chính quy hóa thay đổi dần dần về 0. Đây không phải là trường hợp cho chiều dài euclide, hoặc như một vấn đề thực tế, cho hồi quy lasso.


7

Hiện tại có rất nhiều cách tiếp cận bị phạt có tất cả các loại chức năng hình phạt khác nhau (sườn núi, lasso, MCP, SCAD). Câu hỏi tại sao một trong những hình thức cụ thể về cơ bản là "những lợi thế / bất lợi nào mà hình phạt đó mang lại?".

Các thuộc tính quan tâm có thể là:

1) các công cụ ước tính gần như không thiên vị (lưu ý tất cả các công cụ ước tính bị phạt sẽ bị sai lệch)

2) Độ thưa thớt (lưu ý hồi quy sườn núi không tạo ra kết quả thưa thớt tức là nó không thu nhỏ hệ số về không)

3) Tính liên tục (để tránh mất ổn định trong dự đoán mô hình)

Đây chỉ là một vài thuộc tính người ta có thể quan tâm đến chức năng phạt.

Làm việc với một khoản tiền trong các công cụ phái sinh và công việc lý thuyết sẽ dễ dàng hơn rất nhiều: vd: và. Hãy tưởng tượng nếu chúng ta có hoặc . Lấy các dẫn xuất (cần thiết để hiển thị kết quả lý thuyết như tính nhất quán, tính bình thường tiệm cận, v.v.) sẽ là một nỗi đau với các hình phạt như thế.| | β | | 1 = Σ | β tôi | ||β||22=|βi|2||β||1=|βi| (Σ|betai|)2(|βi|2)(|βi|)2


được rồi cảm ơn. Nhưng tại sao bình phương cho L2 và không bình phương cho L1? Chúng ta không có một công thức chung cho bất kỳ loại chính quy nào? Điều này làm tôi bối rối ...
PLOTZ

@PLOTZ Tôi đã thêm một chút vào câu trả lời của mình.
bdeonovic

Cảm ơn rất nhiều! Để chắc chắn rằng nó rõ ràng hơn bây giờ! Tôi đã không nhận được mục đích lý thuyết này trước câu trả lời của bạn. Rất cám ơn câu trả lời của bạn.
PLOTZ

@Benjamin: ở điểm số 1 bạn có thực sự muốn nói "( không phải tất cả những người ước tính bị phạt sẽ không thiên vị)"? Hồi quy sườn núi Điều chỉnh để đặt tên cho một tên lửa là thiên vị.
boscovich

Rất tiếc, cảm ơn vì đã nắm bắt điều đó! Tôi nghĩ rằng trên thực tế tất cả các công cụ ước tính bị phạt sẽ bị sai lệch.
bdeonovic

5

Trên thực tế, cả bình phương của -norm và -norm đều xuất phát từ cùng một loại chính quy: khi .121 p > 0βppp>0

Hồi quy Ridge sau đó sử dụng và Lasso nhưng người ta có thể sử dụng các giá trị khác của .p = 1 pp=2p=1p

Ví dụ: bạn có giải pháp thưa thớt cho tất cả các giá trị của và giá trị của càng nhỏ thì giải pháp càng nhỏ.pp1p

Đối với các giá trị của mục tiêu của bạn không còn trơn tru nữa nên việc tối ưu hóa trở nên khó khăn hơn; với , mục tiêu là không lồi và do đó việc tối ưu hóa thậm chí còn khó hơn ...p < 1p1p<1


2

Tôi tin rằng có một câu trả lời thậm chí còn đơn giản hơn ở đây, mặc dù các câu hỏi "tại sao" luôn khó trả lời khi một kỹ thuật được phát triển. Bình phương -norm được sử dụng sao cho thuật ngữ chính quy dễ dàng phân biệt. Hồi quy sườn giảm thiểu:l2

yXβ22+λβ22

Điều này cũng có thể được viết:

yXβ22+λβTβ

Bây giờ có thể dễ dàng phân biệt wrt để có được giải pháp dạng đóng:β

β^ridge=(XTX+λI)1XTy

từ đó tất cả các loại suy luận có thể được bắt nguồn.


1

Hãy xem xét một sự khác biệt quan trọng khác giữa việc sử dụng bình phương của định mức (nghĩa là hồi quy sườn) và định mức chưa sửa đổi : đạo hàm của định mức của , , tại được cho bởi và do đó không phân biệt ở vectơ không. Đó là, mặc dù định mức không thực hiện lựa chọn biến riêng lẻ như lasso, nhưng về mặt lý thuyết , nó có thể mang lại như là giải pháp cho khả năng bị phạt tối đa. Bằng cách bình phương2 2 x | | x | | 2 x x222x||x||2x2β=02x||x||22β=02 thông thường trong hình phạt, hình phạt kiểu sườn núi là khác biệt ở mọi nơi và không bao giờ có thể mang lại một giải pháp như vậy.

Hành vi này chính xác (theo cách hiểu của tôi) tại sao nhóm lasso (Yuan và Lin) và nhóm lasso thưa thớt (Simon, et al.), , sử dụng định mức (trên các tập con được chỉ định trước của các hệ số) thay vì hình vuông của định mức .222

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.