Hồi quy sườn: thường xuyên hướng tới một giá trị


7

Ước tính hồi quy sườn truyền thống là

β^ridge=(XTX+λI)1XTY

bắt nguồn từ việc thêm thời hạn phạt λ||β||22.

Tôi đã phải vật lộn để tìm tài liệu về việc thường xuyên hướng tới một giá trị cụ thể . Cụ thể, tôi đã xem xét một mô hình hồi quy sườn sử dụng hình thức phạtλ||βB||22 Ở đâu B là ước tính ban đầu của βtrong bối cảnh của các hình vuông tối thiểu lặp đi lặp lại. Đổi lại, ước tính hồi quy sườn núi là

β^ridge=(XTX+λI)1(XTY+λB).

Tham số lambda cũng được chọn là rất lớn (λ=100000) mà dường như với tôi rằng ước tính đang cố gắng hội tụ B.

Tại sao thường xuyên hướng tới một giá trị? Điều này có thay đổi cách giải thích củaβ?

Bất kỳ ý kiến ​​và / hoặc trích dẫn sẽ được đánh giá rất cao. Cảm ơn!


3
Tôi không hoàn toàn làm theo câu hỏi của bạn bởi vì nó dường như liên quan đến một số điều khác nhau: chính quy hóa, IRLS và tập trung vào một giá trị cụ thể. Tuy nhiên, theo như sau này, nếu bạn phải thay thếY bởi YXB, sau đó bạn chỉ có thể áp dụng hồi quy tiêu chuẩn. Việc đó có phải là ý tưởng tốt hay không phụ thuộc vào những gì IRLS đang thực hiện cho dữ liệu của bạn: rõ ràng kết quả có thể cực kỳ nhạy cảm với ước tính của IRLS.
whuber

Tôi thực sự chỉ muốn biết mục đích của thời hạn phạt mà họ đã sử dụng và nếu ước tính sườn núi vẫn có một số giải thích. Cácβ đây là một ma trận trong bài báo nhưng YXvẫn là vectơ. Điều mà tôi dường như không thể nắm bắt được là trong ước tính cuối cùng của họ về ma trận dự đoán. Tôi mong đợi một số cấu trúc trong đó đường chéo chiếm ưu thế ở trên và dưới có một số đóng góp, hãy nghĩ rằng đường chéo khối. Tuy nhiên, đây không phải là trường hợp nên tôi tự hỏi liệu cách giải thích có bị thay đổi khi sử dụng các kết hợp khác nhau của các giá trị hình phạt và sườn núi hay không.
CindyLhasapoo

Tôi không theo bạn, bởi vì nó không có ý nghĩa toán học hay thống kê cho XY là vectơ và βlà một ma trận. Thông thườngX là ma trận thiết kế (nó chứa các giá trị của tất cả các biến hồi quy), Y là một vectơ (của phản hồi) và βlà một vectơ của các hệ số. Nếu bạn muốn hiểu ước tính Hồi quy của Ridge có nghĩa là gì, thì hãy xem lại Hồi quy của Ridge là gì: như tôi đã chỉ ra trong nhận xét đầu tiên của tôi, những gì bạn mô tả có thể được định dạng lại theo mô hình Hồi quy theo tiêu chuẩn.
whuber

Thường xuyên hướng tới một số giá trị khác không có thể được thực hiện bằng cách sử dụng offset, nếu phần mềm thực hiện điều đó.
kjetil b halvorsen

Tại stats.stackexchange.com/a/311490/919 , tôi cung cấp các chi tiết của đối số rằng việc chuẩn hóa theo một giá trị cụ thể cũng giống như thường xuyên hóa về 0. Điều đó sẽ giúp giải thích.
whuber

Câu trả lời:


5

Chúng tôi có chức năng chi phí

yXβ22+γββ022

trong đó . Tối thiểu đạt được tạiγ0

β^:=(XX+γI)1(Xy+γβ0)

Lưu ý rằng trong khi có thể không khả nghịch, là luôn luôn khả nghịch nếu .XXXX+γIγ>0

Nếu , thìγ1

β^=(XX+γI)1(Xy+γβ0)=(γ1XX+I)1(γ1Xy+β0)(Iγ1XX)(β0+γ1Xy)(Iγ1XX)β0+γ1Xy=β0+γ1X(yXβ0)

Đối với lớn , chúng tôi có ước tính gần đúngγ

β~:=β0+γ1X(yXβ0)

Nếu , thì , như mong đợi. Nhân đôi cả hai bên với , chúng tôi thu đượcγβ~β0X

Xβ~=Xβ0+γ1XX(yXβ0)

và như vậy,

yXβ~=(Iγ1XX)(yXβ0)

cung cấp cho chúng tôi , một xấp xỉ của vectơ lỗi cho lớn nhưng hữu hạn , về mặt , vectơ lỗi cho vô hạn .yXβ~ γyXβ0γ

Không ai trong số này có vẻ đặc biệt sâu sắc hoặc hữu ích, nhưng nó có thể tốt hơn không có gì.


Viết lại và . Bây giờ bạn đã có thiết lập Hồi quy Ridge thông thường với chi phí , cho phép bạn viết ra giải pháp ngay lập tức. ββ0=αy=zXβ0||zXα||2+γ||α||2
whuber

3

Về mặt khái niệm có thể giúp suy nghĩ về việc cập nhật Bayes : Thời hạn phạt tương đương với ước tính trước với độ chính xác (nghĩa là một Gaussian đa biến trướcβ0 λβNβ0,I/λ).

Trong ý nghĩa này là "rất lớn" không không tương ứng với bất kỳ đặc biệt giá trị số. Thay vào đó, nó sẽ là một giá trị "chi phối" lỗi, do đó, số lượng phải lớn so với một số chỉ tiêucủa ma trận thiết kế. Vì vậy, với ví dụ của bạn, chúng tôi không thể nói liệu có "rất lớn" hay không, mà không có thêm thông tin.λXλ=100000

Điều đó nói rằng, tại sao một giá trị "rất lớn" có thể được sử dụng? Một trường hợp phổ biến mà tôi đã thấy trong thực tế là vấn đề thực tế là bình phương bị ràng buộc bởi các bình phương tối thiểu , nhưng điều này gần đúng bằng cách sử dụng Tikhonov Chính quy hóa với "lớn ". (Điều này hơi chung chung hơn trường hợp của bạn và sẽ tương ứng với ma trận "rộng" , sao cho có thể được giải quyết chính xác.)λΛΛ(ββ0)=0


Thông thường, Regression Ridge chỉ được thực hiện sau khi chuẩn hóa các cột của , cho phép có một số ý nghĩa nội tại. Xλ
whuber

@whuber cảm ơn bạn về thông tin mà tôi không biết.
GeoMatt22

Tôi nghĩ đó là nếu tham số thứ hai là viết tắt của ma trận hiệp phương sai. Nβ0,I/λ
Benoit Sanchez

@BenoitSanchez cảm ơn! Không biết tôi đang nghĩ gì, vì tôi gọi nó là chính xác chỉ 5 từ trước đó :)
GeoMatt22

Tôi đã viết một câu trả lời tương tự khi tôi đọc của bạn và nghĩ rằng một trong số chúng ta có thể đang thiếu thứ gì đó :-)
Benoit Sanchez

2

Tôi có câu trả lời cho "Tại sao thường xuyên hướng tới một giá trị? Điều này có thay đổi cách hiểu của không?"β

Chuyển giao học tập là một loại Máy học trong đó kiến ​​thức từ miền nguồn khi thực hiện một tác vụ được chuyển sang miền đích khi thực hiện cùng một nhiệm vụ, nghĩa là nhiệm vụ vẫn giữ nguyên nhưng bộ dữ liệu trong hai miền khác nhau.

Một cách để thực hiện học chuyển là chia sẻ tham số. Trực giác cấp cao là các tham số mô hình miền đích phải rất gần với các tham số mô hình miền nguồn trong khi vẫn cho phép một số điểm không chắc chắn. Về mặt toán học trực giác này được chụp bởi xử phạt các sai lệch các thông số tức là, , ở đâu, là tham số xử phạt và W của một vector của các thông số mô hình.λWtargetWsource22λ

Tôi đã sử dụng phương pháp này để thực hiện học chuyển đối với các trường ngẫu nhiên có điều kiện , xem biểu thức. 4 và văn bản liên quan.

Tôi đã có một câu hỏi tương tự cho hồi quy Ridge được đăng ở đây về tính dễ hiểu của giải pháp dạng đóng.


1

Có thể hiểu nó từ quan điểm của Bayes .

Chuẩn hóa sườn cho hồi quy tuyến tính là một phương pháp Bayes ngụy trang. Xem: https://en.wikipedia.org/wiki/Lasso_(statistic)#Bayesian_interpretation (dễ hiểu hơn được giải thích trên trang Lasso của wikipedia, nhưng đó là ý tưởng tương tự với Ridge).

Quy ước tôi sử dụng để chính quy là như sau. Thu nhỏ: . Giả sử rằng nhiễu có phương sai vì đơn giản (nếu không thì thay thế bằng ở mọi nơi).(i=1N(yiβxi)2)+λββ02σ2=1λλ/σ2

Chính quy với hệ số có nghĩa là giả sử bình thường trước : "Tôi hy vọng rằng các hệ số là nhỏ": Phân phối trước là phân phối bình thường với trung bình và "bán kính" . Thường xuyên theo hướng có nghĩa là giả sử trước bình thường : "Tôi hy vọng rằng các hệ số không ở xa ": phân phối trước là bình thường phân phối với giá trị trung bình và "radius" .λN(0;1λI)01λβ0N(β0;1λI)β0β01λ

Điều này thường là kết quả từ một khóa đào tạo trước đó đã đưa ra làm ước tính. Sức mạnh của niềm tin của bạn là sức mạnh thống kê của tập huấn luyện đầu tiên của bạn. Một lambda lớn có nghĩa là trước đây bạn đã có rất nhiều thông tin, niềm tin của bạn chỉ thay đổi một chút cho mỗi mẫu mới: một bản cập nhật nhỏ theo mẫu.β0λ

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.