LASSO và sườn núi từ quan điểm Bayes: còn thông số điều chỉnh thì sao?


17

Công cụ ước tính hồi quy hình phạt như LASSO và sườn núi được cho là tương ứng với công cụ ước tính Bayes với một số linh mục nhất định. Tôi đoán (vì tôi không biết đủ về thống kê Bayes) rằng đối với một tham số điều chỉnh cố định, tồn tại một tương ứng cụ thể trước đó.

Bây giờ một người thường xuyên sẽ tối ưu hóa tham số điều chỉnh bằng cách xác nhận chéo. Có một tương đương Bayes làm như vậy, và nó được sử dụng ở tất cả? Hay cách tiếp cận Bayes sửa chữa hiệu quả tham số điều chỉnh trước khi xem dữ liệu? (Tôi đoán cái sau sẽ gây bất lợi cho hiệu suất dự đoán.)


3
Tôi tưởng tượng rằng một cách tiếp cận Bayes hoàn toàn sẽ bắt đầu với một ưu tiên nhất định và không sửa đổi nó, vâng. Nhưng cũng có một cách tiếp cận theo kinh nghiệm để tối ưu hóa các giá trị siêu tham số: ví dụ: xem stats.stackexchange.com/questions/24799 .
amip nói phục hồi Monica

Câu hỏi bổ sung (có thể là một phần của Q chính): Có tồn tại một số trước về tham số chính quy hóa bằng cách nào đó thay thế quá trình xác thực chéo, bằng cách nào đó?
kjetil b halvorsen

1
Bayes có thể đặt ưu tiên cho tham số điều chỉnh, vì nó thường tương ứng với tham số phương sai. Đây thường là những gì được thực hiện để tránh CV để giữ nguyên Bayes. Ngoài ra, bạn có thể sử dụng REML để tối ưu hóa tham số chính quy.
anh chàng

2
PS: đối với những người nhắm đến tiền thưởng, hãy lưu ý nhận xét của tôi: Tôi muốn xem một câu trả lời rõ ràng cho thấy trước đó tạo ra ước tính MAP tương đương với xác thực chéo thường xuyên.
statslearner2

1
@ statslearner2 Tôi nghĩ rằng nó giải quyết câu hỏi của Richard rất tốt. Tiền thưởng của bạn dường như tập trung vào một khía cạnh hẹp hơn (về một siêu chiến binh) so với Q. của Richard
amip nói rằng Rebstate Monica

Câu trả lời:


18

Công cụ ước tính hồi quy hình phạt như LASSO và sườn núi được cho là tương ứng với công cụ ước tính Bayes với một số linh mục nhất định.

Vâng, đó là chính xác. Bất cứ khi nào chúng ta gặp vấn đề tối ưu hóa liên quan đến tối đa hóa chức năng khả năng đăng nhập cộng với chức năng xử phạt trên các tham số, thì điều này tương đương về mặt toán học với tối đa hóa sau, trong đó chức năng hình phạt được coi là logarit của hạt nhân trước. Để thấy điều này, giả sử chúng ta có một chức năng phạt w sử dụng một tham số điều chỉnh λ . Hàm mục tiêu trong các trường hợp này có thể được viết là:wλ

Hx(θ|λ)=x(θ)w(θ|λ)=ln(Lx(θ)exp(w(θ|λ)))=ln(Lx(θ)π(θ|λ)Lx(θ)π(θ|λ)dθ)+const=lnπ(θ|x,λ)+const,

trong đó chúng tôi sử dụng số π(θ|λ)exp(w(θ|λ)) trước ( θ | λ ) exp ( - w ( θ | λ ) ) . Quan sát ở đây rằng tham số điều chỉnh trong tối ưu hóa được coi là một siêu tham số cố định trong phân phối trước. Nếu bạn đang thực hiện tối ưu hóa cổ điển với một tham số điều chỉnh cố định, điều này tương đương với thực hiện tối ưu hóa Bayes với một tham số siêu cố định. Đối với hồi quy LASSO và Ridge, các hàm hình phạt và tương đương trước tương ứng là:

LASSO Regressionπ(θ|λ)=k=1mLaplace(0,1λ)=k=1mλ2exp(λ|θk|),Ridge Regressionπ(θ|λ)=k=1mNormal(0,12λ)=k=1mλ/πexp(λθk2).

Phương pháp trước đây xử phạt các hệ số hồi quy theo độ lớn tuyệt đối của chúng, tương đương với việc áp đặt Laplace trước nằm ở 0. Phương pháp sau xử phạt các hệ số hồi quy theo độ lớn bình phương của chúng, tương đương với việc áp đặt một mức bình thường trước nằm ở 0.

Bây giờ một người thường xuyên sẽ tối ưu hóa tham số điều chỉnh bằng cách xác nhận chéo. Có một tương đương Bayes làm như vậy, và nó được sử dụng ở tất cả?

Chừng nào phương pháp thường xuyên có thể được đặt ra như một vấn đề tối ưu hóa (chứ không phải nói, bao gồm cả kiểm tra giả thuyết, hoặc một cái gì đó như thế này) sẽ có một sự tương tự Bayes sử dụng một tương đương trước đó. Cũng giống như các frequentists có thể điều trị các tham số điều chỉnh λ như không rõ và ước tính này từ các dữ liệu, Bayesian có thể tương tự như điều trị các hyperparameter λ như chưa biết. Trong một phân tích Bayes đầy đủ, điều này sẽ liên quan đến việc đưa siêu tham số của chính nó trước và tìm cực đại sau theo trước này, tương tự như tối đa hóa hàm mục tiêu sau:

Hx(θ,λ)=x(θ)w(θ|λ)h(λ)=ln(Lx(θ)exp(w(θ|λ))exp(h(λ)))=ln(Lx(θ)π(θ|λ)π(λ)Lx(θ)π(θ|λ)π(λ)dθ)+const=lnπ(θ,λ|x)+const.

Phương pháp này thực sự được sử dụng trong phân tích Bayes trong trường hợp nhà phân tích không thoải mái khi chọn một siêu tham số cụ thể cho trước và tìm cách làm cho phần trước khuếch tán hơn bằng cách coi nó là không xác định và phân phối. (Lưu ý rằng đây chỉ là một cách ngầm định mang lại sự lan tỏa nhiều hơn trước thông số quan tâm θ .)

(Nhận xét từ statslearner2 bên dưới) Tôi đang tìm kiếm các ước tính MAP tương đương bằng số. Ví dụ, đối với một hình phạt Ridge cố định, có một gaussian trước đó sẽ cho tôi ước tính MAP chính xác bằng với ước tính sườn núi. Bây giờ, đối với sườn CV gấp k, siêu ưu tiên nào sẽ cho tôi ước tính MAP tương tự như ước tính sườn CV?

Trước khi tiếp tục để xem K -fold cross-validation, nó là giá trị đầu tiên lưu ý rằng, về mặt toán học, các tối đa một phương pháp posteriori (MAP) chỉ đơn giản là một tối ưu hóa của một hàm của tham số θ và các dữ liệu x . Nếu bạn sẵn sàng cho phép các linh mục không phù hợp thì phạm vi sẽ gói gọn mọi vấn đề tối ưu hóa liên quan đến chức năng của các biến này. Do đó, bất kỳ phương pháp thường xuyên nào có thể được đóng khung như là một vấn đề tối ưu hóa duy nhất thuộc loại này đều có sự tương tự MAP và bất kỳ phương pháp thường xuyên nào không thể được đóng khung là một tối ưu hóa duy nhất của loại này không có tương tự MAP.

Trong các hình thức trên của mô hình, liên quan đến một chức năng phạt với một tham số điều chỉnh, K -fold cross-validation thường được sử dụng để ước lượng các tham số điều chỉnh λ . Đối với phương pháp này bạn phân vùng dữ liệu vector x vào K phụ vectơ x1,...,xK . Với mỗi vectơ con k=1,...,K bạn phù hợp với mô hình với dữ liệu "đào tạo" xk và sau đó đo mức độ phù hợp của mô hình với dữ liệu "thử nghiệm" xk. Trong mỗi mức độ phù hợp, bạn nhận được một công cụ ước tính cho các tham số mô hình, từ đó đưa ra dự đoán về dữ liệu thử nghiệm, sau đó có thể so sánh với dữ liệu thử nghiệm thực tế để đưa ra thước đo "mất mát":

Estimatorθ^(xk,λ),Predictionsx^k(xk,λ),Testing lossLk(x^k,xk|xk,λ).

Các biện pháp tổn thất cho mỗi "nếp gấp" K sau đó có thể được tổng hợp để có được một biện pháp tổn thất tổng thể cho xác nhận chéo:

L(x,λ)=kLk(x^k,xk|xk,λ)

Sau đó, người ta ước tính tham số điều chỉnh bằng cách giảm thiểu số đo tổn thất tổng thể:

λ^λ^(x)arg min λL(x,λ).

Chúng ta có thể thấy rằng đây là một vấn đề tối ưu hóa, và vì vậy bây giờ chúng ta có hai vấn đề tối ưu hóa riêng biệt (ví dụ, một trong những mô tả trong các phần trên cho θ , và một trong những mô tả vào đây để λ ). Kể từ khi tối ưu hóa sau không liên quan đến θ , chúng ta có thể kết hợp các optimisations thành một vấn đề duy nhất, với một số vấn đề chuyên môn mà tôi thảo luận dưới đây. Để làm điều này, hãy xem xét vấn đề tối ưu hóa với chức năng khách quan:

Hx(θ,λ)=x(θ)w(θ|λ)δL(x,λ),

trong đó δ>0 là giá trị trọng số của tổn thất điều chỉnh. Như δ trọng lượng về tối ưu hóa các điều chỉnh lỗ trở nên vô hạn và do đó vấn đề sản lượng tối ưu hóa các thông số điều chỉnh ước tính từ K -fold cross-validation (trong giới hạn). Phần còn lại của hàm mục tiêu là hàm mục tiêu tiêu chuẩn có điều kiện dựa trên giá trị ước tính này của tham số điều chỉnh. Bây giờ, không may, lấy δ= vít lên vấn đề tối ưu hóa, nhưng nếu chúng ta lấy δ là một giá trị rất lớn (nhưng vẫn hữu hạn), chúng ta có thể xấp xỉ sự kết hợp của hai vấn đề tối ưu hóa lên đến độ chính xác tùy ý.

K quy trình xác thực chéo Fold. Đây không phải là một sự tương tự chính xác, nhưng nó là một sự tương tự gần gũi, cho đến độ chính xác tùy ý. Cũng cần lưu ý rằng sự tương tự MAP không còn chia sẻ chức năng khả năng giống như vấn đề ban đầu, vì chức năng mất phụ thuộc vào dữ liệu và do đó được hấp thụ như một phần của khả năng thay vì trước đó. Trong thực tế, sự tương tự đầy đủ như sau:

Hx(θ,λ)=x(θ)w(θ|λ)δL(x,λ)=ln(Lx(θ,λ)π(θ,λ)Lx(θ,λ)π(θ,λ)dθ)+const,

where Lx(θ,λ)exp(x(θ)δL(x,λ)) and π(θ,λ)exp(w(θ|λ)), with a fixed (and very large) hyper-parameter δ.


This gives an improper prior in cases where the penalty does not correspond to the logarithm of a sigma-finite density.


2
Ok +1 already, but for the bounty I'm looking for these more precise answers.
statslearner2

4
1. I do not get how (since frequentists generally use classical hypothesis tests, etc., which have no Bayesian equivalent) connects to the rest of what I or you are saying; parameter tuning has nothing to do with hypothesis tests, or does it? 2. Do I understand you correctly that there is no Bayesian equivalent to frequentist regularized estimation when the tuning parameter is selected by cross validation? What about empirical Bayes that amoeba mentions in the comments to the OP?
Richard Hardy

3
3. Since regularization with cross validation seems to be quite effective for, say, prediction, doesn't point 2. suggest that the Bayesian approach is somehow inferior?
Richard Hardy

1
@Ben, thanks for your explicit answer and the subsequent clarifications. You have once again done a wonderful job! Regarding 3., yes, it was quite a jump; it certainly is not a strict logical conclusion. But looking at your points w.r.t. 2. (that a Bayesian method can approximate the frequentist penalized optimization with cross validation), I no longer think that Bayesian must be "inferior". The last quibble on my side is, could you perhaps explain how the last, complicated formula could arise in practice in the Bayesian paradigm? Is it something people would normally use or not?
Richard Hardy

2
@Ben (ctd) My problem is that I know little about Bayes. Once it gets technical, I may easily lose the perspective. So I wonder whether this complicated analogy (the last formula) is something that is just a technical possibility or rather something that people routinely use. In other words, I am interested in whether the idea behind cross validation (here in the context of penalized estimation) is resounding in the Bayesian world, whether its advantages are utilized there. Perhaps this could be a separate question, but a short description will suffice for this particular case.
Richard Hardy

6

Indeed most penalized regression methods correspond to placing a particular type of prior to the regression coefficients. For example, you get the LASSO using a Laplace prior, and the ridge using a normal prior. The tuning parameters are the “hyperparameters” under the Bayesian formulation for which you can place an additional prior to estimate them; for example, for in the case of the ridge it is often assumed that the inverse variance of the normal distribution has a χ2 prior. However, as one would expect, resulting inferences can be sensitive to the choice of the prior distributions for these hyperparameters. For example, for the horseshoe prior there are some theoretical results that you should place such a prior for the hyperparameters that it would reflect the number of non-zero coefficients you expect to have.

A nice overview of the links between penalized regression and Bayesian priors is given, for example, by Mallick and Yi.


Thank you for your answer! The linked paper is quite readable, which is nice.
Richard Hardy

2
This does not answer the question, can you elaborate to explain how does the hyper-prior relate to k-fold CV?
statslearner2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.