Công cụ ước tính hồi quy hình phạt như LASSO và sườn núi được cho là tương ứng với công cụ ước tính Bayes với một số linh mục nhất định.
Vâng, đó là chính xác. Bất cứ khi nào chúng ta gặp vấn đề tối ưu hóa liên quan đến tối đa hóa chức năng khả năng đăng nhập cộng với chức năng xử phạt trên các tham số, thì điều này tương đương về mặt toán học với tối đa hóa sau, trong đó chức năng hình phạt được coi là logarit của hạt nhân trước. † Để thấy điều này, giả sử chúng ta có một chức năng phạt w sử dụng một tham số điều chỉnh λ . Hàm mục tiêu trong các trường hợp này có thể được viết là:†wλ
Hx(θ|λ)=ℓx(θ)−w(θ|λ)=ln(Lx(θ)⋅exp(−w(θ|λ)))=ln(Lx(θ)π(θ|λ)∫Lx(θ)π(θ|λ)dθ)+const=lnπ(θ|x,λ)+const,
trong đó chúng tôi sử dụng số π(θ|λ)∝exp(−w(θ|λ)) trước ( θ | λ ) ∝ exp ( - w ( θ | λ ) ) . Quan sát ở đây rằng tham số điều chỉnh trong tối ưu hóa được coi là một siêu tham số cố định trong phân phối trước. Nếu bạn đang thực hiện tối ưu hóa cổ điển với một tham số điều chỉnh cố định, điều này tương đương với thực hiện tối ưu hóa Bayes với một tham số siêu cố định. Đối với hồi quy LASSO và Ridge, các hàm hình phạt và tương đương trước tương ứng là:
LASSO RegressionRidge Regressionπ(θ|λ)π(θ|λ)=∏k=1mLaplace(0,1λ)=∏k=1mλ2⋅exp(−λ|θk|),=∏k=1mNormal(0,12λ)=∏k=1mλ/π−−−√⋅exp(−λθ2k).
Phương pháp trước đây xử phạt các hệ số hồi quy theo độ lớn tuyệt đối của chúng, tương đương với việc áp đặt Laplace trước nằm ở 0. Phương pháp sau xử phạt các hệ số hồi quy theo độ lớn bình phương của chúng, tương đương với việc áp đặt một mức bình thường trước nằm ở 0.
Bây giờ một người thường xuyên sẽ tối ưu hóa tham số điều chỉnh bằng cách xác nhận chéo. Có một tương đương Bayes làm như vậy, và nó được sử dụng ở tất cả?
Chừng nào phương pháp thường xuyên có thể được đặt ra như một vấn đề tối ưu hóa (chứ không phải nói, bao gồm cả kiểm tra giả thuyết, hoặc một cái gì đó như thế này) sẽ có một sự tương tự Bayes sử dụng một tương đương trước đó. Cũng giống như các frequentists có thể điều trị các tham số điều chỉnh λ như không rõ và ước tính này từ các dữ liệu, Bayesian có thể tương tự như điều trị các hyperparameter λ như chưa biết. Trong một phân tích Bayes đầy đủ, điều này sẽ liên quan đến việc đưa siêu tham số của chính nó trước và tìm cực đại sau theo trước này, tương tự như tối đa hóa hàm mục tiêu sau:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−h(λ)=ln(Lx(θ)⋅exp(−w(θ|λ))⋅exp(−h(λ)))=ln(Lx(θ)π(θ|λ)π(λ)∫Lx(θ)π(θ|λ)π(λ)dθ)+const=lnπ(θ,λ|x)+const.
Phương pháp này thực sự được sử dụng trong phân tích Bayes trong trường hợp nhà phân tích không thoải mái khi chọn một siêu tham số cụ thể cho trước và tìm cách làm cho phần trước khuếch tán hơn bằng cách coi nó là không xác định và phân phối. (Lưu ý rằng đây chỉ là một cách ngầm định mang lại sự lan tỏa nhiều hơn trước thông số quan tâm θ .)
(Nhận xét từ statslearner2 bên dưới) Tôi đang tìm kiếm các ước tính MAP tương đương bằng số. Ví dụ, đối với một hình phạt Ridge cố định, có một gaussian trước đó sẽ cho tôi ước tính MAP chính xác bằng với ước tính sườn núi. Bây giờ, đối với sườn CV gấp k, siêu ưu tiên nào sẽ cho tôi ước tính MAP tương tự như ước tính sườn CV?
Trước khi tiếp tục để xem K -fold cross-validation, nó là giá trị đầu tiên lưu ý rằng, về mặt toán học, các tối đa một phương pháp posteriori (MAP) chỉ đơn giản là một tối ưu hóa của một hàm của tham số θ và các dữ liệu x . Nếu bạn sẵn sàng cho phép các linh mục không phù hợp thì phạm vi sẽ gói gọn mọi vấn đề tối ưu hóa liên quan đến chức năng của các biến này. Do đó, bất kỳ phương pháp thường xuyên nào có thể được đóng khung như là một vấn đề tối ưu hóa duy nhất thuộc loại này đều có sự tương tự MAP và bất kỳ phương pháp thường xuyên nào không thể được đóng khung là một tối ưu hóa duy nhất của loại này không có tương tự MAP.
Trong các hình thức trên của mô hình, liên quan đến một chức năng phạt với một tham số điều chỉnh, K -fold cross-validation thường được sử dụng để ước lượng các tham số điều chỉnh λ . Đối với phương pháp này bạn phân vùng dữ liệu vector x vào K phụ vectơ x1,...,xK . Với mỗi vectơ con k=1,...,K bạn phù hợp với mô hình với dữ liệu "đào tạo" x−k và sau đó đo mức độ phù hợp của mô hình với dữ liệu "thử nghiệm" xk. Trong mỗi mức độ phù hợp, bạn nhận được một công cụ ước tính cho các tham số mô hình, từ đó đưa ra dự đoán về dữ liệu thử nghiệm, sau đó có thể so sánh với dữ liệu thử nghiệm thực tế để đưa ra thước đo "mất mát":
EstimatorPredictionsTesting lossθ^(x−k,λ),x^k(x−k,λ),Lk(x^k,xk|x−k,λ).
Các biện pháp tổn thất cho mỗi "nếp gấp" K sau đó có thể được tổng hợp để có được một biện pháp tổn thất tổng thể cho xác nhận chéo:
L(x,λ)=∑kLk(x^k,xk|x−k,λ)
Sau đó, người ta ước tính tham số điều chỉnh bằng cách giảm thiểu số đo tổn thất tổng thể:
λ^≡λ^(x)≡arg min λL(x,λ).
Chúng ta có thể thấy rằng đây là một vấn đề tối ưu hóa, và vì vậy bây giờ chúng ta có hai vấn đề tối ưu hóa riêng biệt (ví dụ, một trong những mô tả trong các phần trên cho θ , và một trong những mô tả vào đây để λ ). Kể từ khi tối ưu hóa sau không liên quan đến θ , chúng ta có thể kết hợp các optimisations thành một vấn đề duy nhất, với một số vấn đề chuyên môn mà tôi thảo luận dưới đây. Để làm điều này, hãy xem xét vấn đề tối ưu hóa với chức năng khách quan:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−δL(x,λ),
trong đó δ>0 là giá trị trọng số của tổn thất điều chỉnh. Như δ→∞ trọng lượng về tối ưu hóa các điều chỉnh lỗ trở nên vô hạn và do đó vấn đề sản lượng tối ưu hóa các thông số điều chỉnh ước tính từ K -fold cross-validation (trong giới hạn). Phần còn lại của hàm mục tiêu là hàm mục tiêu tiêu chuẩn có điều kiện dựa trên giá trị ước tính này của tham số điều chỉnh. Bây giờ, không may, lấy δ=∞ vít lên vấn đề tối ưu hóa, nhưng nếu chúng ta lấy δ là một giá trị rất lớn (nhưng vẫn hữu hạn), chúng ta có thể xấp xỉ sự kết hợp của hai vấn đề tối ưu hóa lên đến độ chính xác tùy ý.
K quy trình xác thực chéo Fold. Đây không phải là một sự tương tự chính xác, nhưng nó là một sự tương tự gần gũi, cho đến độ chính xác tùy ý. Cũng cần lưu ý rằng sự tương tự MAP không còn chia sẻ chức năng khả năng giống như vấn đề ban đầu, vì chức năng mất phụ thuộc vào dữ liệu và do đó được hấp thụ như một phần của khả năng thay vì trước đó. Trong thực tế, sự tương tự đầy đủ như sau:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−δL(x,λ)=ln(L∗x(θ,λ)π(θ,λ)∫L∗x(θ,λ)π(θ,λ)dθ)+const,
where L∗x(θ,λ)∝exp(ℓx(θ)−δL(x,λ)) and π(θ,λ)∝exp(−w(θ|λ)), with a fixed (and very large) hyper-parameter δ.
† This gives an improper prior in cases where the penalty does not correspond to the logarithm of a sigma-finite density.