Mối quan hệ giữa hồi quy sườn và hồi quy PCA

Tôi nhớ có đọc ở đâu đó trên web kết nối giữa hồi quy sườn núi (với $\ell_2$ quy tắc) và hồi quy PCA: khi sử dụng $\ell_2$ hồi quy -regularized với hyperparameter $\lambda$ , nếu $\lambda \to 0$ , sau đó hồi quy tương đương với việc loại bỏ các biến PC với giá trị riêng nhỏ nhất.

Tại sao điều này lại đúng?
Điều này có liên quan gì đến thủ tục tối ưu hóa không? Ngây thơ, tôi đã dự kiến nó sẽ tương đương với OLS.
Có ai có một tài liệu tham khảo cho điều này?

— Jose G
nguồn

Bạn có thể giải thích rõ ràng hơn về cách PCA và hồi quy được kết nối trong câu lệnh của bạn không? Hồi quy phân biệt phụ thuộc với các biến độc lập, trong khi không có gì thuộc loại xảy ra trong PCA. Vậy những biến nào bạn đang áp dụng PCA? Nó không thể chỉ là các biến độc lập, vì điều đó sẽ ít liên quan đến hồi quy. Nhưng nếu nó được áp dụng cho tất cả các biến, thì các hàm riêng là các tổ hợp tuyến tính của tất cả các biến. Điều gì có thể có nghĩa là loại bỏ bất kỳ thành phần như vậy khỏi bộ dữ liệu, vì nó liên quan đến biến phụ thuộc?

— whuber

Kết nối (theo tôi hiểu), là nếu bạn sử dụng một hình phạt chính quy rất nhỏ, một hồi quy chính quy L2 sẽ loại bỏ biến có giá trị riêng nhỏ nhất. Do đó, thực hiện SVD trên ma trận thiết kế và loại bỏ biến có giá trị riêng nhỏ nhất tương đương với hồi quy với hình phạt chính quy "mềm" ... Đây là lời giải thích gần nhất tôi đã tìm thấy về điều này: sites.stat.psu. edu / ~ jiali / khóa học / stat597e / ghi chú2 / lreg.pdf

— Jose G

Tài liệu tham khảo của bạn xuất hiện để chứng minh điều ngược lại những gì bạn đang nói trong bình luận của bạn: ví nhỏ

, có rất ít sự thay đổi trong kết quả. Không có gì được loại bỏ cả. Trên thực tế, một số slide dường như nhằm chỉ ra sự khác biệt giữa hồi quy bị phạt

(trong đó ước tính bị thu hẹp về

) và "hồi quy PCA" (trong đó các thành phần nhỏ nhất bị loại bỏ hoàn toàn - có thể là một điều rất xấu trong một số trường hợp).

λ

$\lambda$

L^{2}

$L^2$

0

$0$

— whuber

Mmm .. đã tìm thấy một tài liệu tham khảo khác: statweb.stanford.edu/~owen/cifts/305/Rudyuityization.pdf Trong slide, "

và các thành phần chính", nó nói rằng hồi quy sườn dự án y vào các thành phần này với dj lớn * thở dài *

y^{r i d g e}

$y^{ridge}$

— Jose G

Bạn có nhận thấy rằng p. 14 tài liệu tham khảo mới nhất trả lời rõ ràng câu hỏi của bạn?

— whuber

Câu trả lời:

Hãy là trung tâm dự báo ma trận và xem xét giá trị phân hủy ít của nó với là một ma trận đường chéo với đường chéo yếu tố . $\mathbf X$ $n \times p$ $\mathbf X = \mathbf{USV}^\top$ $\mathbf S$ $s_i$

Các giá trị được trang bị các bình thường bình phương nhỏ nhất (OLS) hồi quy được xác định bởi Các giá trị được trang bị của hồi quy sườn núi được cho bởi

{\hat{y}}_{O L S} = X β_{O L S} = X (X^{⊤} X)^{- 1} X^{⊤} y = U U^{⊤} y .

$\hat {\mathbf y}_\mathrm{OLS} = \mathbf X \beta_\mathrm{OLS} = \mathbf X (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf y = \mathbf U \mathbf U^\top \mathbf y.$

Các giá trị được trang bị của hồi quy PCA (PCR) với

thành phần được cho bởi

{\hat{y}}_{r i d g e} = X β_{r i d g e} = X (X^{⊤} X + λ I)^{- 1} X^{⊤} y = U d i a g {\frac{s_{i}^{2}}{s_{i}^{2} + λ}} U^{⊤} y .

$\hat {\mathbf y}_\mathrm{ridge} = \mathbf X \beta_\mathrm{ridge} = \mathbf X (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y = \mathbf U\: \mathrm{diag}\left\{\frac{s_i^2}{s_i^2+\lambda}\right\}\mathbf U^\top \mathbf y.$

k

$k$

nơi có

người tiếp theo zero.

{\hat{y}}_{P C R} = X_{P C A} β_{P C R} = U d i a g {1, \dots, 1, 0, \dots 0} U^{⊤} y,

$\hat {\mathbf y}_\mathrm{PCR} = \mathbf X_\mathrm{PCA} \beta_\mathrm{PCR} = \mathbf U\: \mathrm{diag}\left\{1,\ldots, 1, 0, \ldots 0\right\}\mathbf U^\top \mathbf y,$

k

$k$

Từ đây chúng ta có thể thấy rằng:

Nếu thì . $\lambda=0$ $\hat {\mathbf y}_\mathrm{ridge} = \hat {\mathbf y}_\mathrm{OLS}$
$\lambda>0$ $s_i$ $s_i^2 \approx \lambda$
$k$ $\lambda=0$ $k$ $\lambda=\infty$
Điều này có nghĩa là hồi quy sườn có thể được coi là một "phiên bản trơn tru" của PCR.

$s_i$ $\mathbf X$
Hồi quy sườn có xu hướng hoạt động tốt hơn trong thực tế (ví dụ để có hiệu suất xác thực chéo cao hơn).
$\lambda \to 0$ $\hat {\mathbf y}_\mathrm{ridge} \to \hat {\mathbf y}_\mathrm{OLS}$ $s_i$

Một tài liệu tham khảo tốt là Các yếu tố của học thống kê , Phần 3.4.1 "Hồi quy độ dốc".

Xem thêm chủ đề này: Giải thích chính quy sườn núi trong hồi quy và đặc biệt là câu trả lời của @BrianBorchers.

— amip nói phục hồi Monica
nguồn

s_{i} -

$s_i -$

β_{L e a s t - s q u a r e s}

$\beta_{Least-squares}$

Một điều chỉnh cho câu trả lời tuyệt vời khác của bạn: các giá trị được trang bị trong hồi quy trên đầu tiên

k

$k$

U diag (1_{1}, 1_{2}, . . ., 1_{k}, 0, . . ., 0) U^{T} y

$\mathbf{U} {\text{diag}}(1_1,1_2,...,1_k,0,...,0)\mathbf{U}^T\mathbf{y}$

Thật là đẹp

— xxx22

Các yếu tố của học thống kê có một cuộc thảo luận tuyệt vời về kết nối này.

Cách tôi diễn giải kết nối và logic này như sau:

PCA là một tổ hợp tuyến tính của các biến tính năng, cố gắng tối đa hóa phương sai của dữ liệu được giải thích bởi không gian mới.
Dữ liệu bị đa cộng tuyến (hoặc nhiều yếu tố dự đoán hơn các hàng dữ liệu) dẫn đến Ma trận hiệp phương sai không có Xếp hạng đầy đủ.
Với Ma trận hiệp phương sai này, chúng ta không thể đảo ngược để xác định giải pháp Least Squares; điều này làm cho hệ số xấp xỉ bằng số của các hệ số bình phương tối thiểu bị thổi lên đến vô cùng.
Hồi quy Ridge giới thiệu hình phạt Lambda trên Ma trận hiệp phương sai để cho phép đảo ngược ma trận và hội tụ các hệ số LS.

Kết nối PCA là Ridge Regression đang tính toán các kết hợp tuyến tính của các tính năng để xác định nơi xảy ra tình trạng đa cộng tuyến. Các kết hợp tuyến tính của các tính năng (Phân tích thành phần nguyên tắc) với phương sai nhỏ nhất (và do đó các giá trị số ít hơn và giá trị riêng nhỏ hơn trong PCA) là những giá trị bị phạt nặng nhất.

Nghĩ theo cách này; đối với các kết hợp tuyến tính của các tính năng có phương sai nhỏ nhất, chúng tôi đã tìm thấy các tính năng giống nhau nhất, do đó gây ra tính đa hình. Vì Ridge không làm giảm bộ Tính năng, bất kỳ hướng nào Kết hợp tuyến tính này được mô tả, Tính năng ban đầu tương ứng với hướng đó sẽ bị phạt nhiều nhất.

— MDornbos
nguồn

X β = y,

$\mathbf X \beta = \mathbf y\,,$

X

$\mathbf X$

X = U S V^{T},

$\mathbf X = \mathbf U \,\mathbf S \,\mathbf V^T,$

S = diag (s_{i})

$\mathbf S = \text{diag}(s_i)$

$\beta$

β_{O L S} = V S^{- 1} U^{T}

$\beta_{OLS} = \mathbf V \,\mathbf S^{-1} \,\mathbf U^T$ However, this approach fails as soon there is one singular value which is zero (as then the inverse does not exists). Moreover, even if no

s_{i}

$s_i$ is excatly zero, numerically small singular values can render the matrix ill-conditioned and lead to a solution which is highly susceptible to errors.

Ridge regression and PCA present two methods to avoid these problems. Ridge regression replaces $\mathbf S^{-1}$ in the above equation for $\beta$ by

\begin{aligned} S_{ridge}^{- 1} & = diag (\frac{s_{i}}{s_{i}^{2} + α}), \\ β_{ridge} & = V S_{ridge}^{- 1} U^{T} \end{aligned}

$\begin{align} \mathbf S^{-1}_{\text{ridge}} &= \text{diag}\bigg(\frac{s_i}{s^2_i+\alpha}\bigg),\\ \beta_{\text{ridge}} &= \ \mathbf V \,\mathbf S_{\text{ridge}}^{-1} \,\mathbf U^T \end{align}$

PCA replaces $\mathbf S^{-1}$ by

\begin{aligned} S_{PCA}^{- 1} & = diag (\frac{1}{s_{i}} θ (s_{i} - γ)), \\ β_{PCA} & = V S_{PCA}^{- 1} U^{T} \end{aligned}

$\begin{align} \mathbf S^{-1}_{\text{PCA}} &= \text{diag}\bigg(\frac{1}{s_i} \, \theta(s_i-\gamma)\bigg)\,,\\ \beta_{\text{PCA}} &= \ \mathbf V \,\mathbf S_{\text{PCA}}^{-1} \,\mathbf U^T \end{align}$ wehre

θ

$\theta$ is the step function, and

γ

$\gamma$ is the threshold parameter.

Both methods thus weaken the impact of subspaces corresponding to small values. PCA does that in a hard way, while the ridge is a smoother approach.

More abstractly, feel free to come up with your own regularization scheme

S_{myReg}^{- 1} = diag (R (s_{i})),

$\mathbf S^{-1}_{\text{myReg}} = \text{diag}\big(R(s_i)\big)\,,$ where

R (x)

$R(x)$ is a function that should approach zero for

x \to 0

$x\rightarrow 0$ and

R (x) \to x^{- 1}

$R(x)\rightarrow x^{-1}$ for

x

$x$ large. But remember, there's no free lunch.

— davidhigh
nguồn