Giải thích chính quy sườn núi trong hồi quy


25

Tôi có một số câu hỏi liên quan đến hình phạt sườn núi trong bối cảnh bình phương nhỏ nhất:

βridge=(λID+XX)1Xy

1) Biểu thức cho thấy ma trận hiệp phương sai của X được thu nhỏ theo ma trận đường chéo, nghĩa là (giả sử rằng các biến được chuẩn hóa trước thủ tục) mối tương quan giữa các biến đầu vào sẽ được hạ xuống. Giải thích này có đúng không?

2) Nếu nó là một ứng dụng co rút tại sao nó không được xây dựng trong các dòng (λID+(1λ)XX) , giả định rằng chúng tôi bằng cách nào đó có thể hạn chế lambda tới [0,1] tầm với bình thường.

3) Điều gì có thể là chuẩn hóa cho λ để có thể giới hạn trong phạm vi tiêu chuẩn như [0,1].

4) Thêm một hằng số vào đường chéo sẽ ảnh hưởng đến tất cả các giá trị riêng. Sẽ tốt hơn nếu chỉ tấn công các giá trị số ít hoặc gần số ít? Điều này có tương đương với việc áp dụng PCA cho X và giữ lại các thành phần chính N hàng đầu trước khi hồi quy hay nó có một tên khác (vì nó không sửa đổi phép tính hiệp phương sai)?

5) Chúng ta có thể hợp thức hiệp phương sai chéo, hoặc dùng nó có bất kỳ sử dụng, có nghĩa là

βrtôidge= =(λtôiD+X'X)-1(γX'y)

trong đó một nhỏ sẽ hạ thấp hiệp phương sai. Rõ ràng điều này làm giảm tất cả s như nhau, nhưng có lẽ có một cách thông minh hơn như ngưỡng cứng / mềm tùy thuộc vào giá trị hiệp phương sai.γβ


iirc hình phạt sườn núi xuất phát từ một hạn chế đó , bằng cách của một số nhân Lagrange trên hàm mục tiêu MSE. LASSO là như nhau nhưng với | β | thay thế. Tôi đang ở trên điện thoại của mình vì vậy tôi không thể dễ dàng đăng bài phái sinh vào lúc này. Nhưng đây là những câu hỏi hayΣβ2T|β|
Shadowtalker 22/12/14

Câu trả lời:


19

Những câu hỏi hay!

  1. Vâng, điều này là chính xác. Bạn có thể thấy hình phạt sườn núi là một cách có thể để đối phó với vấn đề đa cộng đồng phát sinh khi nhiều người dự đoán có mối tương quan cao. Giới thiệu hình phạt sườn núi có hiệu quả làm giảm các mối tương quan.

  2. Tôi nghĩ rằng đây là một phần truyền thống, một phần thực tế là công thức hồi quy sườn núi như đã nêu trong phương trình đầu tiên của mình sau từ hàm chi phí sau: Nếu λ = 0 , thuật ngữ thứ hai có thể được giảm xuống, và giảm thiểu các nhiệm kỳ đầu tiên ( "lỗi tái thiết") dẫn đến công thức OLS tiêu chuẩn cho β . Giữ dẫn thứ hai hạn công thức cho β r i d g e

    L=yXβ2+λβ2.
    λ=0ββridge. Hàm chi phí này về mặt toán học rất thuận tiện để giải quyết và đây có thể là một trong những lý do để thích lambda "không chuẩn hóa".
  3. Một cách có thể để bình thường hóa là để mở rộng nó bằng tổng phương sai t r ( XX ) , tức là sử dụng λ t r ( XX ) thay vì λ . Điều này sẽ không nhất thiết phải giới hạn λ tới [ 0 , 1 ] , nhưng sẽ làm cho nó "không thứ nguyên" và có lẽ sẽ cho kết quả tối ưu λ là ít hơn 1λtr(XX)λtr(XX)λλ[0,1]λ1 trong tất cả các trường hợp thực tế (NB: đây chỉ là một phỏng đoán!).

  4. "Chỉ tấn công các giá trị riêng nhỏ" có một tên riêng và được gọi là hồi quy thành phần chính. Mối liên hệ giữa PCR và hồi quy sườn là trong PCR bạn thực sự có "hình phạt bước" cắt bỏ tất cả các giá trị riêng sau một số nhất định, trong khi hồi quy sườn áp dụng "hình phạt mềm", phạt tất cả các giá trị riêng, với những giá trị nhỏ hơn bị phạt nhiều hơn. Điều này được giải thích độc đáo trong Các yếu tố của học thống kê bởi Hastie et al. (có sẵn miễn phí trực tuyến), phần 3.4.1. Xem thêm câu trả lời của tôi trong Mối quan hệ giữa hồi quy sườn và hồi quy PCA .

  5. Tôi chưa bao giờ thấy điều này được thực hiện, nhưng lưu ý rằng bạn có thể xem xét một hàm chi phí theo hình thức Điều này thu nhỏ β không về 0, nhưng với một số giá trị được xác định trước khác β 0 . Nếu một tác phẩm ra toán, bạn sẽ đến để tối ưu β do β = ( XX + λ tôi ) - 1 ( Xy +

    L=yXβ2+λββ02.
    ββ0β mà có lẽ có thể được coi là "regularizing chéo hiệp phương sai"?
    β=(XX+λI)1(Xy+λβ0),

1
Bạn có thể giải thích tại sao việc thêm vào X X có nghĩa là ma trận hiệp phương sai của X bị thu hẹp về phía ma trận đường chéo? Đây là một câu hỏi đại số hoàn toàn tuyến tính tôi cho rằng. λIDXXX
Heisenberg

3
@Heisenberg, tốt, là ma trận hiệp phương sai của X (tối đa hệ số tỷ lệ 1 / N ). Tính toán β yêu cầu đảo ngược ma trận hiệp phương sai này. Trong hồi quy sườn núi, chúng tôi nghịch X X + λ Tôi thay vào đó, nên người ta có thể thấy X X + λ tôi như một ước tính regularized của ma trận hiệp phương sai. Bây giờ hạn λ Tôi là một ma trận đường chéo với λ trên đường chéo. Hãy tưởng tượng rằng λ là rất lớn; sau đó tổng được chi phối bởi thuật ngữ đường chéoXXX1/NβXX+λIXX+λIλIλλλI, Và do đó hiệp phương sai regularized trở nên ngày càng có nhiều đường chéo như phát triển. λ
amip nói phục hồi Monica

wrt Câu 5, Các yếu tố của Học thống kê xem xét các hạn chế về độ mịn đối với các ứng dụng xử lý ảnh (PDA - trang 447)
seanv507

10

Một nhận xét thêm về câu hỏi 4. Trên thực tế, hồi quy sườn núi thực hiện khá hiệu quả đối với các giá trị riêng nhỏ của XTX trong khi chủ yếu chỉ để lại các giá trị riêng lớn.

Để thấy điều này, hãy biểu thị ước lượng hồi quy sườn theo thuật ngữ phân tách giá trị số ít của , X

X=i=1nσiuiviT

trong đó các vectơ là trực giao lẫn nhau và vectơ v i cũng trực giao lẫn nhau. Ở đây các giá trị riêng của X T Xσ 2 i , i = 1 , 2 , Lỗi , n . uiviXTXσi2i=1,2,,n

Sau đó, bạn có thể chỉ ra rằng

βridge=i=1nσi2σi2+λ1σi(uiTy)vi.

σi2/(σi2+λ)λ=0λ>0σi2λσi2λ , thì yếu tố này là yếu 0. Do đó các điều khoản tương ứng với giá trị riêng nhỏ một cách hiệu quả thả ra, trong khi những người tương ứng với giá trị bản địa lớn hơn được giữ lại.

Để so sánh, hồi quy thành phần chính chỉ đơn giản sử dụng các yếu tố 1 (đối với các giá trị riêng lớn hơn) hoặc 0 (đối với các giá trị riêng nhỏ hơn bị loại bỏ) trong công thức này.


1
Đó chính xác là những gì tôi đã đề cập ngắn gọn trong câu trả lời của mình, nhưng thật tuyệt khi được xây dựng và trình bày một cách toán học, +1.
amip nói phục hồi Monica

5

XX

λx+y=κ(αx+(1α)y),
α=λ1+λκ=1+λ0λ<+0<α1

Kỹ thuật mà bạn mô tả là "tấn công [ing] chỉ các giá trị số ít hoặc gần số ít" còn được gọi là Phân tích phổ số ít (với mục đích hồi quy tuyến tính) (xem Phương trình 19), nếu bằng cách "tấn công", bạn có nghĩa là "loại bỏ" ". Hiệp phương sai không thay đổi.

Loại bỏ các giá trị số ít cũng được thực hiện bằng hồi quy thành phần chính . Trong PCR, PCA được thực hiện trênXvà hồi quy tuyến tính được áp dụng trên một lựa chọn các thành phần thu được. Sự khác biệt với SSA là nó có tác động đến hiệp phương sai.


Thank you. In PCR covariance with y is calculated after the reduction of dimension is performed, no? Is that the difference between PCR and SSA? Your gamma (not mine), how do you select that so alpha will be [0,1] bounded?
Cagdas Ozgenc

1
Sorry about this confusing γ, I'm replacing it by a κ.
Vincent Guillemot

Tôi nghĩ rằng bạn đã đúng về sự khác biệt giữa SSA và PCR, tuy nhiên chúng ta nên viết nó ra để chắc chắn.
Vincent Guillemot
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.