Điều này liên quan đến phương sai
OLS cung cấp cái được gọi là Công cụ ước tính không thiên vị tuyến tính tốt nhất (BLUE) . Điều đó có nghĩa là nếu bạn lấy bất kỳ công cụ ước lượng không thiên vị nào khác, thì chắc chắn sẽ có phương sai cao hơn thì giải pháp OLS. Vậy tại sao chúng ta nên xem xét bất cứ điều gì khác hơn thế?
Bây giờ mẹo với việc chính quy hóa, chẳng hạn như lasso hoặc sườn núi, là lần lượt thêm một số sai lệch để cố gắng giảm phương sai. Bởi vì khi bạn ước tính lỗi dự đoán của mình, đó là sự kết hợp của ba điều :
Phần cuối cùng là lỗi không thể khắc phục, vì vậy chúng tôi không kiểm soát được điều đó. Sử dụng giải pháp OLS, thuật ngữ sai lệch bằng không. Nhưng nó có thể là thuật ngữ thứ hai là lớn. Nó có thể là một ý tưởng tốt, ( nếu chúng ta muốn dự đoán tốt ), để thêm vào một số sai lệch và hy vọng làm giảm phương sai.
E [ ( y- f^( x ) )2] = Xu hướng [ f^( x ) ) ]2+ Var [ f^( X ) ) ] + σ2
Vậy gì? Đó là phương sai được giới thiệu trong các ước tính cho các tham số trong mô hình của bạn. Mô hình tuyến tính có dạng
Để có được giải pháp OLS, chúng tôi giải quyết vấn đề tối thiểu hóa
Điều này cung cấp giải pháp
Vấn đề tối thiểu hóa cho hồi quy sườn là tương tự:
Bây giờ giải pháp trở thành
y = X β + ε ,Var [ f^( x ) ) ]arg min beta | | y - X β | | 2 β OLS = ( X T X ) - 1 X T y arg min β | | y - X β | | 2 + bước sóng | | β | | 2
y = X β+ Ε ,ϵ ∼ N( 0 , σ2Tôi)
tranh luậntối thiểuβ| | y - X β| |2
β^TUỔI= ( XTX )- 1XTy
tranh luậntối thiểuβ| | y - X β| |2+ λ | | β| |2λ > 0
β^cây rơm= ( XTX +λtôi)- 1XTy
Vì vậy, chúng tôi đang thêm (được gọi là sườn núi) trên đường chéo của ma trận mà chúng tôi đảo. Hiệu ứng này có trên ma trận là nó "
kéo " yếu tố quyết định của ma trận từ 0. Do đó, khi bạn đảo ngược nó, bạn không nhận được giá trị bản địa lớn. Nhưng điều đó dẫn đến một thực tế thú vị khác, đó là phương sai của các ước tính tham số trở nên thấp hơn.
λ tôiXTX
Tôi không chắc chắn nếu tôi có thể cung cấp một câu trả lời rõ ràng hơn sau đó này. Tất cả điều này có nghĩa là ma trận hiệp phương sai cho các tham số trong mô hình và độ lớn của các giá trị trong ma trận hiệp phương sai đó.
Tôi lấy hồi quy sườn núi làm ví dụ, vì điều đó dễ điều trị hơn nhiều. Lasso khó hơn nhiều và vẫn còn hoạt động nghiên cứu liên tục về chủ đề đó.
Các slide này cung cấp thêm một số thông tin và blog này cũng có một số thông tin liên quan.
EDIT: Ý tôi là gì khi thêm sườn núi, yếu tố quyết định bị " kéo " ra khỏi số 0?
Lưu ý rằng ma trận là ma trận đối xứng xác định dương. Lưu ý rằng tất cả các ma trận đối xứng với các giá trị thực đều có giá trị riêng thực. Ngoài ra vì nó là xác định dương, các giá trị riêng đều lớn hơn 0.XTX
Ok vậy làm thế nào để chúng ta tính toán giá trị bản địa? Chúng tôi giải phương trình đặc trưng:
Đây là một đa thức trong , và như đã nêu ở trên, các giá trị riêng là có thực và dương. Bây giờ chúng ta hãy xem phương trình của ma trận sườn núi mà chúng ta cần đảo ngược:
Chúng ta có thể thay đổi điều này một chút bit và xem:
Vì vậy, chúng ta có thể giải quyết điều này cho và có cùng giá trị riêng đối với vấn đề đầu tiên. Giả sử rằng một giá trị riêng là . Vì vậy, giá trị riêng cho bài toán sườn núi trở thành . Nó được thay đổi bởi
phát hiện ( XTX -ttôi) = 0
tphát hiện ( XTX + λ tôi- t tôi) =0
phát hiện ( XTX -(t-λ)tôi) = 0
( T - λ )tTôitTôi+ λλ . Điều này xảy ra với tất cả các giá trị riêng, vì vậy tất cả chúng đều di chuyển từ số không.
Đây là một số mã R để minh họa điều này:
# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)
# Make a symmetric matrix
B <- A+t(A)
# Calculate eigenvalues
eigen(B)
# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))
Cung cấp kết quả:
> eigen(B)
$values
[1] 37.368634 6.952718 -8.321352
> eigen(B+3*diag(3))
$values
[1] 40.368634 9.952718 -5.321352
Vì vậy, tất cả các giá trị riêng được tăng lên chính xác bằng 3.
Bạn cũng có thể chứng minh điều này nói chung bằng cách sử dụng định lý vòng tròn Gershgorin . Ở đó các tâm của các vòng tròn chứa giá trị riêng là các phần tử đường chéo. Bạn luôn có thể thêm "đủ" vào phần tử đường chéo để tạo tất cả các vòng tròn trong nửa mặt phẳng thực dương. Kết quả đó là tổng quát hơn và không cần thiết cho việc này.