- λ→∞ββ=0
(Cập nhật: Vui lòng xem câu trả lời của Glen_b. Đây không phải là lý do lịch sử chính xác!)
β^=(XTX+λI)−1XTY.
λI
n<p
β
ββ∼N(0,σ2λIp)(Y|X,β)∼N(Xβ,σ2In)
π(β|y)∝π(β)f(y|β)
∝1(σ2/λ)p/2exp(−λ2σ2βTβ)×1(σ2)n/2exp(−12σ2||y−Xβ||2)
∝exp(−λ2σ2βTβ−12σ2||y−Xβ||2).
maxβ∈Rp exp(−λ2σ2βTβ−12σ2||y−Xβ||2)
maxβ∈Rp −λ2σ2βTβ−12σ2||y−Xβ||2
vì hoàn toàn đơn điệu và lần lượt này tương đương với
logminβ∈Rp||y−Xβ||2+λβTβ
Mà nhìn khá quen.
Do đó, chúng ta thấy rằng nếu chúng ta đặt một giá trị bình thường trước trung bình 0 và phương sai trên vectơ của chúng ta , thì giá trị của tối đa hóa phía sau là công cụ ước tính sườn núi. Lưu ý rằng điều này coi nhiều hơn như là một tham số thường xuyên vì không có trước nhưng nó không được biết đến, vì vậy đây không hoàn toàn là Bayesian.σ2λββσ2
Chỉnh sửa: bạn đã hỏi về trường hợp . Chúng ta biết rằng một siêu phẳng trong được xác định bởi chính xác điểm . Nếu chúng ta đang chạy hồi quy tuyến tính và thì chúng ta sẽ nội suy chính xác dữ liệu của mình và nhận . Đây là một giải pháp, nhưng nó là một giải pháp tồi tệ: hiệu suất của chúng tôi đối với dữ liệu trong tương lai rất có thể sẽ rất tệ. Bây giờ giả sử : không còn một siêu phẳng duy nhất được xác định bởi các điểm này. Chúng ta có thể phù hợp với vô số siêu phẳng, mỗi siêu thị có 0 bình phương còn lại.n<pRppn=p||y−Xβ^||2=0n<p
Một ví dụ rất đơn giản: giả sử . Sau đó, chúng tôi sẽ chỉ nhận được một đường giữa hai điểm này. Bây giờ giả sử nhưng . Hình ảnh một mặt phẳng với hai điểm này trong đó. Chúng ta có thể xoay mặt phẳng này mà không thay đổi thực tế là hai điểm này nằm trong đó, do đó, có rất nhiều mô hình có giá trị hoàn hảo của hàm mục tiêu của chúng ta, do đó, ngay cả vấn đề vượt quá nó cũng không rõ là chọn điểm nào.n=p=2n=2p=3
Là một nhận xét cuối cùng (đề xuất của mỗi @ gung), LASSO (sử dụng hình phạt ) thường được sử dụng cho các vấn đề về chiều cao vì nó tự động thực hiện lựa chọn biến (đặt một số ). Đủ thú vị, hóa ra LASSO tương đương với việc tìm chế độ sau khi sử dụng hàm mũ đôi (hay còn gọi là Laplace) trước trên vectơ . LASSO cũng có một số hạn chế, chẳng hạn như bão hòa ở dự đoán và không nhất thiết phải xử lý các nhóm dự đoán tương quan theo kiểu lý tưởng, do đó, lưới đàn hồi (kết hợp lồi của hình phạt và ) có thể được đưa ra.L1βj=0βnL1L2