Bằng chứng về việc thu hẹp các hệ số bằng cách sử dụng hồi quy sườn thông qua phân rã phổ

Tôi đã hiểu làm thế nào hồi quy sườn núi thu nhỏ các hệ số về không về mặt hình học. Hơn nữa, tôi biết làm thế nào để chứng minh điều đó trong "Trường hợp đặc biệt", nhưng tôi bối rối không biết nó hoạt động như thế nào trong trường hợp chung thông qua "Phân tích phổ".

— jeza
nguồn

Bạn đã nói rằng bạn đang bối rối, nhưng câu hỏi của bạn là gì?

— whuber

Câu hỏi dường như yêu cầu một minh chứng rằng Hồi quy Ridge thu nhỏ các ước tính hệ số về 0, sử dụng phân rã phổ. Phân rã phổ có thể được hiểu là hệ quả dễ dàng của Phân rã giá trị số đơn (SVD). Do đó, bài đăng này bắt đầu với SVD. Nó giải thích nó bằng các thuật ngữ đơn giản và sau đó minh họa nó bằng các ứng dụng quan trọng. Sau đó, nó cung cấp các cuộc biểu tình được yêu cầu (đại số). (Tất nhiên, đại số giống hệt với trình diễn hình học; nó chỉ đơn thuần là đi văng trong một ngôn ngữ khác.)

Nguồn gốc của câu trả lời này có thể được tìm thấy trong các ghi chú khóa học hồi quy của tôi . Phiên bản này sửa một số lỗi nhỏ.

SVD là gì

Bất kỳ ma trận , với , có thể được viết trong đó $n\times p$ $X$ $p \le n$

X = U D V^{'}

$X = UDV^\prime$

$U$ là ma trận . $n\times p$
- Các cột của có chiều dài . $U$ $1$
- Các cột của là trực giao lẫn nhau. $U$
- Họ được gọi là những thành phần chủ yếu của . $X$
$V$ là ma trận . $p \times p$
- Các cột của có chiều dài . $V$ $1$
- Các cột của là trực giao lẫn nhau. $V$
- Làm cho này một vòng quay của . $V$ $\mathbb{R}^p$
$D$ là ma trận chéo . $p \times p$
- Các phần tử đường chéo không âm. Đây là những giá trị đặc biệt của . $d_{11}, d_{22}, \ldots, d_{pp}$ $X$
- Nếu chúng tôi muốn, chúng tôi có thể đặt hàng chúng từ lớn nhất đến nhỏ nhất.

Tiêu chí (1) và (2) khẳng định rằng cả và đều là ma trận trực giao . Chúng có thể được tóm tắt gọn gàng bởi các điều kiện $U$ $V$

U^{'} U = 1_{p}, V^{'} V = 1_{p} .

$U^\prime U = 1_p,\ V^\prime V = 1_p.$

Kết quả là ( đại diện cho một vòng quay), cũng vậy. Điều này sẽ được sử dụng trong dẫn xuất Hồi quy Ridge bên dưới. $V$ $VV^\prime = 1_p$

Nó làm gì cho chúng ta

Nó có thể đơn giản hóa các công thức. Điều này hoạt động cả đại số và khái niệm. Dưới đây là một số ví dụ.

Các phương trình bình thường

Hãy xem xét hồi quy trong đó, như thường lệ, là độc lập và được phân phối chính xác theo một định luật không có kỳ vọng và phương sai hữu hạn . Giải pháp bình phương tối thiểu thông qua các phương trình bình thường là Áp dụng SVD và đơn giản hóa kết quả đại số kết quả (rất dễ) cung cấp một cái nhìn sâu sắc tốt đẹp: $y = X\beta + \varepsilon$ $\varepsilon$ $\sigma^2$

\hat{β} = (X^{'} X)^{- 1} X^{'} y .

$\hat\beta = (X^\prime X)^{-1} X^\prime y.$

(X^{'} X)^{- 1} X^{'} = ((U D V^{'})^{'} (U D V^{'}))^{- 1} (U D V^{'})^{'} = (V D U^{'} U D V^{'})^{- 1} (V D U^{'}) = V D^{- 2} V^{'} V D U^{'} = V D^{- 1} U^{'} .

$(X^\prime X)^{-1} X^\prime = ((UDV^\prime)^\prime (UDV^\prime))^{-1} (UDV^\prime)^\prime \\= (VDU^\prime U D V^\prime)^{-1} (VDU^\prime) = VD^{-2}V^\prime VDU^\prime = VD^{-1}U^\prime.$

Sự khác biệt duy nhất giữa cái này và là các đối ứng của các phần tử của được sử dụng! Nói cách khác, "phương trình" được giải quyết bằng cách "đảo ngược" : phép đảo ngược giả này hoàn tác các phép quay và (chỉ bằng cách hoán vị chúng) và hủy bỏ phép nhân (đại diện bởi ) theo từng hướng chính. $X^\prime = VDU^\prime$ $D$ $y=X\beta$ $X$ $U$ $V^\prime$ $D$

Để tham khảo trong tương lai, lưu ý rằng các ước tính "xoay" là các kết hợp tuyến tính của các phản hồi "xoay" . Các hệ số là nghịch đảo của các phần tử đường chéo (dương) của , bằng . $V^\prime \hat\beta$ $U^\prime y$ $D$ $d_{ii}^{-1}$

Hiệp phương sai các ước tính hệ số

Hãy nhớ rằng hiệp phương sai của các ước tính là Sử dụng SVD, điều này trở thành Nói cách khác, hiệp phương sai hoạt động giống như các biến trực giao , mỗi biến có phương sai , đã được xoay trong .

Cov (\hat{β}) = σ^{2} (X^{'} X)^{- 1} .

$\text{Cov}(\hat\beta) = \sigma^2(X^\prime X)^{-1}.$

σ^{2} (V D^{2} V^{'})^{- 1} = σ^{2} V D^{- 2} V^{'} .

$\sigma^2(V D^2 V^\prime)^{-1} = \sigma^2 V D^{-2} V^\prime.$

k

$k$

d_{i i}^{2}

$d^2_{ii}$

R^{k}

$\mathbb{R}^k$

Ma trận mũ

Ma trận mũ làBằng kết quả trước, chúng tôi có thể viết lại thànhĐơn giản!

H = X (X^{'} X)^{- 1} X^{'} .

$H = X(X^\prime X)^{-1} X^\prime.$

H = (U D V^{'}) (V D^{- 1} U^{'}) = U U^{'} .

$H = (UDV^\prime)(VD^{-1}U^\prime) = UU^\prime.$

Eigenanalysis (phân hủy quang phổ)

Vì và ngay lập tức

X^{'} X = V D U^{'} U D V^{'} = V D^{2} V^{'}

$X^\prime X = VDU^\prime U D V^\prime = VD^2V^\prime$

X X^{'} = U D V^{'} V D U^{'} = U D^{2} U^{'},

$XX^\prime = UDV^\prime VDU^\prime = UD^2U^\prime,$

Các giá trị riêng của và là bình phương của các giá trị số ít. $X^\prime X$ $XX^\prime$
Các cột của là vector riêng của . $V$ $X^\prime X$
Các cột của là một số các hàm riêng của . (Các hàm riêng khác tồn tại nhưng tương ứng với các giá trị riêng bằng không.) $U$ $X X^\prime$

SVD có thể chẩn đoán và giải quyết các vấn đề về cộng tuyến.

Xấp xỉ các biến hồi quy

Khi bạn thay thế các giá trị số ít nhất bằng số không, bạn sẽ thay đổi sản phẩm chỉ một chút. Tuy nhiên, bây giờ, các số 0 loại bỏ các cột tương ứng của , làm giảm hiệu quả số lượng biến. Với điều kiện những cột bị loại bỏ có ít tương quan với , điều này có thể hoạt động hiệu quả như một kỹ thuật giảm biến. $UDV^\prime$ $U$ $y$

Hồi quy sườn

Để các cột của được chuẩn hóa, cũng như chính . (Điều này có nghĩa là chúng ta không còn cần một cột không đổi trong ) Đối với công cụ ước tính sườn núi là $X$ $y$ $X$ $\lambda \gt 0$

\begin{aligned} {\hat{β}}_{R} & = (X^{'} X + λ)^{- 1} X^{'} y \\ = (V D^{2} V^{'} + λ 1_{p})^{- 1} V D U^{'} y \\ = (V D^{2} V^{'} + λ V V^{'})^{- 1} V D U^{'} y \\ = (V (D^{2} + λ) V^{'})^{- 1} V D U^{'} y \\ = V (D^{2} + λ)^{- 1} V^{'} V D U^{'} y \\ = V (D^{2} + λ)^{- 1} D U^{'} y . \end{aligned}

$\begin{aligned}\hat\beta_R &= (X^\prime X + \lambda)^{-1}X^\prime y \\ &= (VD^2V^\prime + \lambda\,1_p)^{-1}VDU^\prime y \\ &= (VD^2V^\prime + \lambda V V^\prime)^{-1}VDU^\prime y \\ &= (V(D^2 + \lambda)V^\prime)^{-1} VDU^\prime y \\ &= V(D^2+\lambda)^{-1}V^\prime V DU^\prime y \\ &= V(D^2 + \lambda)^{-1} D U^\prime y.\end{aligned}$

Sự khác biệt giữa điều này và là sự thay thế của bởi . $\hat\beta$ $D^{-1} = D^{-2}D$ $(D^2+\lambda)^{-1}D$ Trong thực tế, điều này nhân bản gốc với phân số . Bởi vì (khi ) mẫu số rõ ràng lớn hơn tử số, tham số ước tính "co lại về không". $D^2/(D^2+\lambda)$ $\lambda \gt 0$

Kết quả này phải được hiểu theo nghĩa hơi tinh tế được đề cập trước đây: các ước tính xoay vòng vẫn là các kết hợp tuyến tính của các vectơ , nhưng mỗi hệ số - được sử dụng là - đã được nhân với hệ số . Như vậy, các hệ số xoay phải co lại, nhưng có thể, khi đủ nhỏ, đối với một số thực sự tăng kích thước. $V^\prime\hat\beta_R$ $U^\prime y$ $d_{ii}^{-1}$ $d_{ii}^2/(d_{ii}^2 + \lambda)$ $\lambda$ $\hat\beta_R$

Để tránh phiền nhiễu, trường hợp một trong những giá trị số ít bằng 0 đã được loại trừ trong cuộc thảo luận này. Trong những trường hợp như vậy, nếu chúng ta thường quy định " " bằng 0, $d_{ii}^{-1}$ thì mọi thứ vẫn hoạt động. Đây là những gì đang xảy ra khi nghịch đảo tổng quát được sử dụng để giải các phương trình Bình thường.

— whuber
nguồn

@Glen_b Đó là một điểm tốt: Tôi cần phải rõ ràng về phần tôi đang xem xét! Tôi sẽ sửa nó.

— whuber

(1) Một phần của phương trình khẳng định rằng tích của mỗi cột của là , trong đó mỗi độ dài là (theo định nghĩa) . (2) theo quan sát rằng là ma trận quay, bởi vì điều này ngụ ý cũng là ma trận xoay. Do đó . Cắm vào cho .

U U^{'} = 1_{p}

$UU^\prime=1_p$

U

$U$

1

$1$

\sqrt{1} = 1

$\sqrt{1}=1$

V V^{'} = 1_{p}

$VV^\prime=1_p$

V

$V$

V^{- 1}

$V^{-1}$

(V^{- 1})^{'} (V^{- 1}) = 1_{p}

$(V^{-1})^\prime(V^{-1})=1_p$

V^{- 1} = V^{'}

$V^{-1}=V^\prime$

V V^{'} = (V^{'})^{'} V^{'} = 1_{p}

$VV^\prime=(V^\prime)^\prime V^\prime=1_p$

— whuber

@Vimal Cảm ơn bạn đã gợi ý tốt. Bây giờ tôi đã bao gồm một lời giải thích trong phần "Phương trình bình thường" nơi mô hình hồi quy được giới thiệu.

— whuber

Khi đối xứng, thì theo định nghĩa So sánh hai bên trái và phải ngay lập tức cho thấy diagonalization của một ma trận đối xứng thực sự là một trường hợp đặc biệt của SVD và cũng gợi ý rằng trong SVD của một ma trận đối xứng, . Thực tế đó là trường hợp được cung cấp không phổ biến - nhưng chứng minh nó không hoàn toàn sơ cấp, vì vậy tôi sẽ không đi sâu vào chi tiết.

X

$X$

V D U^{'} = X^{'} = X = U D V^{'} .

$VDU^\prime=X^\prime=X=UDV^\prime.$

U = V

$U=V$

X

$X$

— whuber

@ whuber, oh, nó là như thế này? Trong giá trị được trang bị chúng tôi sẽ sử dụng các ước tính hệ số và miễn là chúng được thu nhỏ về 0, điều tương tự sẽ xảy ra đối với giá trị được trang bị.

\hat{y}

$\hat{y}$

— jeza