Bằng chứng về việc thu hẹp các hệ số bằng cách sử dụng hồi quy sườn thông qua phân rã phổ


20

Tôi đã hiểu làm thế nào hồi quy sườn núi thu nhỏ các hệ số về không về mặt hình học. Hơn nữa, tôi biết làm thế nào để chứng minh điều đó trong "Trường hợp đặc biệt", nhưng tôi bối rối không biết nó hoạt động như thế nào trong trường hợp chung thông qua "Phân tích phổ".


4
Bạn đã nói rằng bạn đang bối rối, nhưng câu hỏi của bạn là gì?
whuber

Câu trả lời:


30

Câu hỏi dường như yêu cầu một minh chứng rằng Hồi quy Ridge thu nhỏ các ước tính hệ số về 0, sử dụng phân rã phổ. Phân rã phổ có thể được hiểu là hệ quả dễ dàng của Phân rã giá trị số đơn (SVD). Do đó, bài đăng này bắt đầu với SVD. Nó giải thích nó bằng các thuật ngữ đơn giản và sau đó minh họa nó bằng các ứng dụng quan trọng. Sau đó, nó cung cấp các cuộc biểu tình được yêu cầu (đại số). (Tất nhiên, đại số giống hệt với trình diễn hình học; nó chỉ đơn thuần là đi văng trong một ngôn ngữ khác.)

Nguồn gốc của câu trả lời này có thể được tìm thấy trong các ghi chú khóa học hồi quy của tôi . Phiên bản này sửa một số lỗi nhỏ.


SVD là gì

Bất kỳ ma trận , với , có thể được viết trong đóX p n X = U D V 'n×pXpn

X=UDV
  1. n × pU là ma trận .n×p

    • Các cột của có chiều dài .1U1
    • Các cột của là trực giao lẫn nhau.U
    • Họ được gọi là những thành phần chủ yếu của .X
  2. p × pV là ma trận .p×p

    • Các cột của có chiều dài .1V1
    • Các cột của là trực giao lẫn nhau.V
    • Làm cho này một vòng quay của .R pVRp
  3. p × pD là ma trận chéo .p×p

    • Các phần tử đường chéo không âm. Đây là những giá trị đặc biệt của . Xd11,d22,,dppX
    • Nếu chúng tôi muốn, chúng tôi có thể đặt hàng chúng từ lớn nhất đến nhỏ nhất.

Tiêu chí (1) và (2) khẳng định rằng cả và đều là ma trận trực giao . Chúng có thể được tóm tắt gọn gàng bởi các điều kiệnVUV

UU=1p, VV=1p.

Kết quả là ( đại diện cho một vòng quay), cũng vậy. Điều này sẽ được sử dụng trong dẫn xuất Hồi quy Ridge bên dưới.V V = 1 pVVV=1p

Nó làm gì cho chúng ta

Nó có thể đơn giản hóa các công thức. Điều này hoạt động cả đại số và khái niệm. Dưới đây là một số ví dụ.

Các phương trình bình thường

Hãy xem xét hồi quy trong đó, như thường lệ, là độc lập và được phân phối chính xác theo một định luật không có kỳ vọng và phương sai hữu hạn . Giải pháp bình phương tối thiểu thông qua các phương trình bình thường là Áp dụng SVD và đơn giản hóa kết quả đại số kết quả (rất dễ) cung cấp một cái nhìn sâu sắc tốt đẹp:ε σ 2 β = ( X ' X ) - 1 X ' y .y=Xβ+εεσ2

β^=(XX)1Xy.

(XX)1X=((UDV)(UDV))1(UDV)=(VDUUDV)1(VDU)=VD2VVDU=VD1U.

Sự khác biệt duy nhất giữa cái này và là các đối ứng của các phần tử của được sử dụng! Nói cách khác, "phương trình" được giải quyết bằng cách "đảo ngược" : phép đảo ngược giả này hoàn tác các phép quay và (chỉ bằng cách hoán vị chúng) và hủy bỏ phép nhân (đại diện bởi ) theo từng hướng chính. D y = X β X U V DX=VDUDy=XβXUVD

Để tham khảo trong tương lai, lưu ý rằng các ước tính "xoay" là các kết hợp tuyến tính của các phản hồi "xoay" . Các hệ số là nghịch đảo của các phần tử đường chéo (dương) của , bằng . β U ' y D d - 1 i iVβ^UyDdii1

Hiệp phương sai các ước tính hệ số

Hãy nhớ rằng hiệp phương sai của các ước tính là Sử dụng SVD, điều này trở thành Nói cách khác, hiệp phương sai hoạt động giống như các biến trực giao , mỗi biến có phương sai , đã được xoay trong .σ 2 ( V D 2 V ' ) - 1 = σ 2 V D - 2 V ' . k d 2 i i R k

Cov(β^)=σ2(XX)1.
σ2(VD2V)1=σ2VD2V.
k dii2Rk

Ma trận mũ

Ma trận mũ làBằng kết quả trước, chúng tôi có thể viết lại thànhĐơn giản!H = ( U D V ' ) ( V D - 1 U ' ) = U U ' .

H=X(XX)1X.
H=(UDV)(VD1U)=UU.

Eigenanalysis (phân hủy quang phổ)

Vì và ngay lập tức

XX=VDUUDV=VD2V
XX=UDVVDU=UD2U,
  • Các giá trị riêng của và là bình phương của các giá trị số ít.XXXX
  • Các cột của là vector riêng của .VXX
  • Các cột của là một số các hàm riêng của . (Các hàm riêng khác tồn tại nhưng tương ứng với các giá trị riêng bằng không.)UXX

SVD có thể chẩn đoán và giải quyết các vấn đề về cộng tuyến.

Xấp xỉ các biến hồi quy

Khi bạn thay thế các giá trị số ít nhất bằng số không, bạn sẽ thay đổi sản phẩm chỉ một chút. Tuy nhiên, bây giờ, các số 0 loại bỏ các cột tương ứng của , làm giảm hiệu quả số lượng biến. Với điều kiện những cột bị loại bỏ có ít tương quan với , điều này có thể hoạt động hiệu quả như một kỹ thuật giảm biến.UDVUy

Hồi quy sườn

Để các cột của được chuẩn hóa, cũng như chính . (Điều này có nghĩa là chúng ta không còn cần một cột không đổi trong ) Đối với công cụ ước tính sườn núi là XyXλ>0

β^R=(XX+λ)1Xy=(VD2V+λ1p)1VDUy=(VD2V+λVV)1VDUy=(V(D2+λ)V)1VDUy=V(D2+λ)1VVDUy=V(D2+λ)1DUy.

Sự khác biệt giữa điều này và là sự thay thế của bởi . Dβ^D1=D2D(D2+λ)1DTrong thực tế, điều này nhân bản gốc với phân số . Bởi vì (khi ) mẫu số rõ ràng lớn hơn tử số, tham số ước tính "co lại về không".D2/(D2+λ)λ>0


Kết quả này phải được hiểu theo nghĩa hơi tinh tế được đề cập trước đây: các ước tính xoay vòng vẫn là các kết hợp tuyến tính của các vectơ , nhưng mỗi hệ số - được sử dụng là - đã được nhân với hệ số . Như vậy, các hệ số xoay phải co lại, nhưng có thể, khi đủ nhỏ, đối với một số thực sự tăng kích thước. β R U ' y d - 1 i iVβ^RUydii1dii2/(dii2+λ)λβ^R

Để tránh phiền nhiễu, trường hợp một trong những giá trị số ít bằng 0 đã được loại trừ trong cuộc thảo luận này. Trong những trường hợp như vậy, nếu chúng ta thường quy định " " bằng 0,dii1 thì mọi thứ vẫn hoạt động. Đây là những gì đang xảy ra khi nghịch đảo tổng quát được sử dụng để giải các phương trình Bình thường.


1
@Glen_b Đó là một điểm tốt: Tôi cần phải rõ ràng về phần tôi đang xem xét! Tôi sẽ sửa nó.
whuber

1
(1) Một phần của phương trình khẳng định rằng tích của mỗi cột của là , trong đó mỗi độ dài là (theo định nghĩa) . (2) theo quan sát rằng là ma trận quay, bởi vì điều này ngụ ý cũng là ma trận xoay. Do đó . Cắm vào cho . UU=1pU1VV'=1pVV - 1 (V - 1 )'(V - 1 )=1pV - 1 =V'1=1VV=1pVV1(V1)(V1)=1pV1=VVV=(V)V=1p
whuber

1
@Vimal Cảm ơn bạn đã gợi ý tốt. Bây giờ tôi đã bao gồm một lời giải thích trong phần "Phương trình bình thường" nơi mô hình hồi quy được giới thiệu.
whuber

1
Khi đối xứng, thì theo định nghĩa So sánh hai bên trái và phải ngay lập tức cho thấy diagonalization của một ma trận đối xứng thực sự là một trường hợp đặc biệt của SVD và cũng gợi ý rằng trong SVD của một ma trận đối xứng, . Thực tế đó là trường hợp được cung cấp không phổ biến - nhưng chứng minh nó không hoàn toàn sơ cấp, vì vậy tôi sẽ không đi sâu vào chi tiết. V D U = X = X = U D V . U = V XX
VDU=X=X=UDV.
U=VX
whuber

1
@ whuber, oh, nó là như thế này? Trong giá trị được trang bị chúng tôi sẽ sử dụng các ước tính hệ số và miễn là chúng được thu nhỏ về 0, điều tương tự sẽ xảy ra đối với giá trị được trang bị. y^
jeza
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.