Tại sao Laplace trước sản xuất các giải pháp thưa thớt?


22

Tôi đã xem qua các tài liệu về chính quy hóa, và thường thấy các đoạn liên kết điều chỉnh L2 với Gaussian trước và L1 với Laplace tập trung vào số không.

Tôi biết những linh mục này trông như thế nào, nhưng tôi không hiểu, ví dụ như nó chuyển sang trọng số như thế nào trong mô hình tuyến tính. Trong L1, nếu tôi hiểu chính xác, chúng tôi mong đợi các giải pháp thưa thớt, tức là một số trọng số sẽ được đẩy về chính xác bằng không. Và trong L2, chúng ta có trọng lượng nhỏ nhưng không có trọng lượng bằng không.

Nhưng tại sao nó lại xảy ra?

Hãy bình luận nếu tôi cần cung cấp thêm thông tin hoặc làm rõ lối suy nghĩ của tôi.



1
Một lời giải thích trực quan thực sự đơn giản là hình phạt giảm khi sử dụng định mức L2 nhưng không phải khi sử dụng định mức L1. Vì vậy, nếu bạn có thể giữ cho phần mô hình của hàm mất bằng nhau và bạn có thể làm như vậy bằng cách giảm một trong hai biến, tốt hơn là giảm biến có giá trị tuyệt đối cao trong trường hợp L2 nhưng không phải trong trường hợp L1.
testuser

Câu trả lời:


21

Mối quan hệ của phân phối Laplace trước với trung vị (hoặc chỉ tiêu L1) được tìm thấy bởi chính Laplace, người nhận thấy rằng việc sử dụng trước đó bạn ước tính trung vị thay vì có nghĩa như với phân phối Bình thường (xem Stingler, 1986 hoặc Wikipedia ). Điều này có nghĩa là hồi quy với phân phối lỗi Laplace ước tính trung vị (ví dụ như hồi quy lượng tử), trong khi các lỗi Bình thường đề cập đến ước tính OLS.

Các linh mục mạnh mẽ mà bạn hỏi về cũng được mô tả bởi Tibshirani (1996), người đã nhận thấy rằng hồi quy Lasso mạnh mẽ trong bối cảnh Bayes tương đương với việc sử dụng Laplace trước đó. Các hệ số trước như vậy được tập trung quanh 0 (với các biến trung tâm) và có đuôi rộng - vì vậy hầu hết các hệ số hồi quy ước tính sử dụng nó đều kết thúc bằng 0. Điều này là rõ ràng nếu bạn nhìn kỹ vào hình ảnh bên dưới, phân phối Laplace có đỉnh quanh 0 (có khối lượng phân phối lớn hơn), trong khi phân phối chuẩn sẽ khuếch tán hơn quanh 0, vì vậy các giá trị khác không có khối lượng xác suất lớn hơn. Các khả năng khác cho các linh mục mạnh mẽ là Cauchy hoặc - phân phối.t

Sử dụng các linh mục như vậy, bạn sẽ dễ dàng kết thúc với nhiều hệ số có giá trị bằng 0, một số kích thước vừa phải và một số kích thước lớn (đuôi dài), trong khi với Bình thường trước bạn sẽ có được các hệ số có kích thước vừa phải không chính xác bằng 0, nhưng cũng không xa lắm.

nhập mô tả hình ảnh ở đây

(nguồn hình ảnh Tibshirani, 1996)


Stigler, SM (1986). Lịch sử thống kê: Đo lường sự không chắc chắn trước năm 1900. Cambridge, MA: Belknap Press của Harvard University Press.

Tibshirani, R. (1996). Thu hẹp hồi quy và chọn lọc qua phương pháp hồi quy tuyến tính nhiều biến có hiệu chỉnh mô hình. Tạp chí của Hiệp hội Thống kê Hoàng gia. Sê-ri B (Phương pháp luận), 267-288.

Gelman, A., Jakulin, A., Pittau, GM và Su, Y.-S. (2008). Một phân phối trước mặc định thông tin yếu cho các mô hình hồi quy và hậu cần khác. Biên niên sử thống kê ứng dụng, 2 (4), 1360-1383.

Norton, RM (1984). Phân phối hàm mũ đôi: Sử dụng phép tính để tìm ước lượng khả năng tối đa. Nhà thống kê người Mỹ, 38 (2): 135-136.


Wow, đây là lời giải thích rất tốt, và cũng cảm ơn đặc biệt cho câu hỏi được liên kết trong đó các tiêu chuẩn chính quy được liên kết trực quan với chế độ, đồng cỏ và ý nghĩa, điều này thực sự làm rõ rất nhiều cho tôi!
Dmitry Smirnov

1
@Tim, Phân phối Cauchy có Đuôi nặng nhưng xác suất cho Zero thấp hơn Phân phối bình thường. Vì vậy, làm thế nào đến nó gây ra giải pháp thưa thớt?
Royi

4

Quan điểm thường xuyên

Theo một nghĩa nào đó, chúng ta có thể nghĩ cả hai chính quy là "thu nhỏ trọng lượng" ; L2 giảm thiểu định mức Euclide của các trọng số, trong khi L1 giảm thiểu định mức Manhattan. Theo dòng suy nghĩ này, chúng ta có thể lý giải rằng các khả năng của L1 và L2 tương ứng là hình cầu và hình thoi, vì vậy L1 có nhiều khả năng dẫn đến các giải pháp thưa thớt, như được minh họa trong Nhận dạng mẫu và học máy của Đức cha :

Giám mục * Nhận dạng mẫu và Học máy *

Quan điểm của Bayes

Tuy nhiên, để hiểu làm thế nào các linh mục liên quan đến mô hình tuyến tính , chúng ta cần hiểu cách giải thích Bayes về hồi quy tuyến tính thông thường . Blogpost của Kinda Bailey là một bài đọc tuyệt vời cho việc này. Tóm lại, chúng tôi giả sử các lỗi iid phân phối bình thường trong mô hình tuyến tính của chúng tôi

y= =θX+ε

Nytôi,tôi= =1,2,Giáo dục,Nεk~N(0,σ)

y

p(y|X,θ;ε)= =N(θX,σ)

Hóa ra ... Công cụ ước tính khả năng tối đa giống hệt như giảm thiểu lỗi bình phương giữa các giá trị đầu ra thực tế được dự đoán và theo giả định quy tắc cho lỗi.

θ^MLE= =tranh luậntối đaθđăng nhậpP(y|θ)= =tranh luậntối thiểuθΣtôi= =1n(ytôi-θxtôi)2

Chính quy hóa như đưa linh mục lên cân

Nếu chúng ta đặt một điểm không đồng nhất trước các trọng số của hồi quy tuyến tính, thì ước tính xác suất sau (MAP) tối đa sẽ là:

θ^BẢN ĐỒ= =tranh luậntối đaθđăng nhậpP(y|θ)+đăng nhậpP(θ)

P(θ)θ

P(θ)θ

Laplace vs Gaussian

Bây giờ chúng ta có một quan điểm khác về lý do tại sao đặt Laplace trước các trọng số có nhiều khả năng gây ra sự thưa thớt hơn: bởi vì phân phối Laplace tập trung nhiều hơn vào khoảng 0 , trọng số của chúng ta có nhiều khả năng bằng không.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.