Câu hỏi dường như yêu cầu một minh chứng rằng Hồi quy Ridge thu nhỏ các ước tính hệ số về 0, sử dụng phân rã phổ. Phân rã phổ có thể được hiểu là hệ quả dễ dàng của Phân rã giá trị số đơn (SVD). Do đó, bài đăng này bắt đầu với SVD. Nó giải thích nó bằng các thuật ngữ đơn giản và sau đó minh họa nó bằng các ứng dụng quan trọng. Sau đó, nó cung cấp các cuộc biểu tình được yêu cầu (đại số). (Tất nhiên, đại số giống hệt với trình diễn hình học; nó chỉ đơn thuần là đi văng trong một ngôn ngữ khác.)
Nguồn gốc của câu trả lời này có thể được tìm thấy trong các ghi chú khóa học hồi quy của tôi . Phiên bản này sửa một số lỗi nhỏ.
SVD là gì
Bất kỳ ma trận , với , có thể được viết trong đóX p ≤ n X = U D V 'n×pXp≤n
X=UDV′
n × pU là ma trận .n×p
- Các cột của có chiều dài .1U1
- Các cột của là trực giao lẫn nhau.U
- Họ được gọi là những thành phần chủ yếu của .X
p × pV là ma trận .p×p
- Các cột của có chiều dài .1V1
- Các cột của là trực giao lẫn nhau.V
- Làm cho này một vòng quay của .R pVRp
p × pD là ma trận chéo .p×p
- Các phần tử đường chéo không âm. Đây là những giá trị đặc biệt của . Xd11,d22,…,dppX
- Nếu chúng tôi muốn, chúng tôi có thể đặt hàng chúng từ lớn nhất đến nhỏ nhất.
Tiêu chí (1) và (2) khẳng định rằng cả và đều là ma trận trực giao . Chúng có thể được tóm tắt gọn gàng bởi các điều kiệnVUV
U′U=1p, V′V=1p.
Kết quả là ( đại diện cho một vòng quay), cũng vậy. Điều này sẽ được sử dụng trong dẫn xuất Hồi quy Ridge bên dưới.V V ′ = 1 pVVV′=1p
Nó làm gì cho chúng ta
Nó có thể đơn giản hóa các công thức. Điều này hoạt động cả đại số và khái niệm. Dưới đây là một số ví dụ.
Các phương trình bình thường
Hãy xem xét hồi quy trong đó, như thường lệ, là độc lập và được phân phối chính xác theo một định luật không có kỳ vọng và phương sai hữu hạn . Giải pháp bình phương tối thiểu thông qua các phương trình bình thường là Áp dụng SVD và đơn giản hóa kết quả đại số kết quả (rất dễ) cung cấp một cái nhìn sâu sắc tốt đẹp:ε σ 2 β = ( X ' X ) - 1 X ' y .y=Xβ+εεσ2
β^=(X′X)−1X′y.
(X′X)−1X′=((UDV′)′(UDV′))−1(UDV′)′=(VDU′UDV′)−1(VDU′)=VD−2V′VDU′=VD−1U′.
Sự khác biệt duy nhất giữa cái này và là các đối ứng của các phần tử của được sử dụng! Nói cách khác, "phương trình" được giải quyết bằng cách "đảo ngược" : phép đảo ngược giả này hoàn tác các phép quay và (chỉ bằng cách hoán vị chúng) và hủy bỏ phép nhân (đại diện bởi ) theo từng hướng chính. D y = X β X U V ′ DX′=VDU′Dy=XβXUV′D
Để tham khảo trong tương lai, lưu ý rằng các ước tính "xoay" là các kết hợp tuyến tính của các phản hồi "xoay" . Các hệ số là nghịch đảo của các phần tử đường chéo (dương) của , bằng . β U ' y D d - 1 i iV′β^U′yDd−1ii
Hiệp phương sai các ước tính hệ số
Hãy nhớ rằng hiệp phương sai của các ước tính là Sử dụng SVD, điều này trở thành Nói cách khác, hiệp phương sai hoạt động giống như các biến trực giao , mỗi biến có phương sai , đã được xoay trong .σ 2 ( V D 2 V ' ) - 1 = σ 2 V D - 2 V ' . k d 2 i i R k
Cov(β^)=σ2(X′X)−1.
σ2(VD2V′)−1=σ2VD−2V′.
k d2iiRk
Ma trận mũ
Ma trận mũ làBằng kết quả trước, chúng tôi có thể viết lại thànhĐơn giản!H = ( U D V ' ) ( V D - 1 U ' ) = U U ' .
H=X(X′X)−1X′.
H=(UDV′)(VD−1U′)=UU′.
Eigenanalysis (phân hủy quang phổ)
Vì và ngay lập tức
X′X=VDU′UDV′=VD2V′
XX′=UDV′VDU′=UD2U′,
- Các giá trị riêng của và là bình phương của các giá trị số ít.X′XXX′
- Các cột của là vector riêng của .VX′X
- Các cột của là một số các hàm riêng của . (Các hàm riêng khác tồn tại nhưng tương ứng với các giá trị riêng bằng không.)UXX′
SVD có thể chẩn đoán và giải quyết các vấn đề về cộng tuyến.
Xấp xỉ các biến hồi quy
Khi bạn thay thế các giá trị số ít nhất bằng số không, bạn sẽ thay đổi sản phẩm chỉ một chút. Tuy nhiên, bây giờ, các số 0 loại bỏ các cột tương ứng của , làm giảm hiệu quả số lượng biến. Với điều kiện những cột bị loại bỏ có ít tương quan với , điều này có thể hoạt động hiệu quả như một kỹ thuật giảm biến.UDV′Uy
Hồi quy sườn
Để các cột của được chuẩn hóa, cũng như chính . (Điều này có nghĩa là chúng ta không còn cần một cột không đổi trong ) Đối với công cụ ước tính sườn núi là XyXλ>0
β^R=(X′X+λ)−1X′y=(VD2V′+λ1p)−1VDU′y=(VD2V′+λVV′)−1VDU′y=(V(D2+λ)V′)−1VDU′y=V(D2+λ)−1V′VDU′y=V(D2+λ)−1DU′y.
Sự khác biệt giữa điều này và là sự thay thế của bởi . Dβ^D−1=D−2D(D2+λ)−1DTrong thực tế, điều này nhân bản gốc với phân số . Bởi vì (khi ) mẫu số rõ ràng lớn hơn tử số, tham số ước tính "co lại về không".D2/(D2+λ)λ>0
Kết quả này phải được hiểu theo nghĩa hơi tinh tế được đề cập trước đây: các ước tính xoay vòng vẫn là các kết hợp tuyến tính của các vectơ , nhưng mỗi hệ số - được sử dụng là - đã được nhân với hệ số . Như vậy, các hệ số xoay phải co lại, nhưng có thể, khi đủ nhỏ, đối với một số thực sự tăng kích thước. β R U ' y d - 1 i iV′β^RU′yd−1iid2ii/(d2ii+λ)λβ^R
Để tránh phiền nhiễu, trường hợp một trong những giá trị số ít bằng 0 đã được loại trừ trong cuộc thảo luận này. Trong những trường hợp như vậy, nếu chúng ta thường quy định " " bằng 0,d−1ii thì mọi thứ vẫn hoạt động. Đây là những gì đang xảy ra khi nghịch đảo tổng quát được sử dụng để giải các phương trình Bình thường.