Trong điều kiện chính xác, hồi quy sườn có thể cung cấp một cải tiến so với hồi quy bình phương nhỏ nhất bình thường?


16

Hồi quy độ ước tính các tham số trong mô hình tuyến tính \ mathbf y = \ mathbf X \ boldsymbol \ beta bởi \ hat {\ boldsymbol \ beta} _ \ lambda = (\ mathbf X ^ \ top \ mathbf X + \ lambda \ mathbf I) ^ {- 1} \ mathbf X ^ \ top \ mathbf y, trong đó \ lambda là một tham số chính quy. Điều nổi tiếng là nó thường hoạt động tốt hơn hồi quy OLS (với \ lambda = 0 ) khi có nhiều yếu tố dự đoán tương quan.ββ λ = ( XX + λ tôi ) - 1 Xy , λ λ = 0y=Xβ

β^λ=(XX+λI)1Xy,
λλ=0

Một định lý tồn tại cho hồi quy sườn núi nói rằng luôn tồn tại một tham số λ>0 sao cho lỗi bình phương trung bình của β^λ nhỏ hơn nhiều so với lỗi bình phương trung bình của OLS ước tính β^OLS=β^0 . Nói cách khác, giá trị tối ưu của λ luôn luôn khác không. Điều này rõ ràng đã được chứng minh lần đầu tiên ở Hoerl và Kennard, 1970 và được lặp lại trong nhiều ghi chú bài giảng mà tôi tìm thấy trên mạng (ví dụ ở đâyở đây ). Câu hỏi của tôi là về các giả định của định lý này:

  1. Có bất kỳ giả định nào về ma trận hiệp phương sai XX không?

  2. Có bất kỳ giả định nào về chiều của X không?

Cụ thể, định lý này có còn đúng không nếu các yếu tố dự đoán là trực giao (tức là XX là đường chéo) hoặc thậm chí nếu XX=I ? Và nó có còn đúng không nếu chỉ có một hoặc hai yếu tố dự đoán (giả sử, một yếu tố dự đoán và đánh chặn)?

Nếu định lý không đưa ra các giả định như vậy và vẫn đúng ngay cả trong các trường hợp này, thì tại sao hồi quy sườn núi thường chỉ được đề xuất trong trường hợp các yếu tố dự đoán tương quan và không bao giờ (?) Được đề xuất cho hồi quy đơn giản (không phải là nhiều)?


Điều này có liên quan đến câu hỏi của tôi về quan điểm hợp nhất về co ngót: mối quan hệ (nếu có) giữa nghịch lý của Stein, hồi quy sườn và hiệu ứng ngẫu nhiên trong các mô hình hỗn hợp là gì? , nhưng không có câu trả lời nào làm rõ điểm này cho đến bây giờ.


1
Nó xuất hiện tất cả trừ câu hỏi cuối cùng được đề cập trực tiếp trong bài báo Hoerl & Kennard, đặc biệt là trong câu đầu tiên của phần Giới thiệu và câu đầu tiên của Kết luận. Câu hỏi cuối cùng có thể được trả lời bằng cách lưu ý hiệp phương sai giữa một vectơ không đổi và bất kỳ một yếu tố dự đoán nào luôn luôn bằng 0, điều này cho phép một (theo cách tiêu chuẩn) giảm thành ma trận . 1×1XX1×1
whuber

1
Cảm ơn, @whuber. Tôi tin rằng giấy Hoerl & Kennard trả lời các câu hỏi của tôi (ít nhất là các câu hỏi kỹ thuật) - người ta có thể làm theo bằng chứng và kiểm tra các giả định (tôi chưa thực hiện được). Nhưng tôi không hoàn toàn bị thuyết phục bởi những câu bạn đang đề cập đến. Câu đầu tiên của phần giới thiệu liên quan đến câu hỏi của tôi như thế nào? Câu đầu tiên của Kết luận cho thấy rằng nếu có phổ thống nhất (ví dụ bằng ) thì định lý không áp dụng. Nhưng tôi không chắc chắn 100%, vì tôi không thấy giả định này được nêu rõ ràng trước khi chứng minh. tôiXXI
amip nói phục hồi Monica

Hãy xem những loại câu hỏi nào có thể được hỏi bởi những người dùng đại diện cao (những người thường chỉ trả lời chúng) (và tương tự cho câu hỏi được liên kết khác của bạn đã gửi cho tôi tại đây stats.stackexchange.com/questions/122062/iêu !
javadba

Câu trả lời:


11

Câu trả lời cho cả 1 và 2 là không, nhưng cần cẩn thận trong việc diễn giải định lý tồn tại.

Phương sai của công cụ ước tính sườn

Đặt là ước tính sườn núi theo hình phạt và để là tham số thực sự cho mô hình . Đặt là giá trị riêng của . Từ các phương trình Hoerl & Kennard 4.2-4.5, rủi ro, (về mặt định mức dự kiến của lỗi) là kβY=Xβ+ελ1,...,λpXTXL2β^kβY=Xβ+ϵλ1,,λpXTX
L2

( X T X+k I p ) -2= ( X T X+k I p ) -1 ( X T X+k I p ) -1. γ1 ^ β * -βγ2

E([β^β]T[β^β])=σ2j=1pλj/(λj+k)2+k2βT(XTX+kIp)2β=γ1(k)+γ2(k)=R(k)
trong trường hợp tôi có thể nói, Họ nhận xét rằng có cách giải thích về phương sai của sản phẩm bên trong của , trong khi là sản phẩm bên trong của sự thiên vị.(XTX+kIp)2=(XTX+kIp)1(XTX+kIp)1.γ1β^βγ2

Giả sử , sau đó Đặt là đạo hàm của rủi ro w / r / t . Vì , nên chúng tôi kết luận rằng có một số sao cho . R ( k ) = p σ 2 + k 2 β T βXTX=IpR ( k ) = 2 k ( 1 + k ) β T β - ( p σ 2 + k 2 β T β )

R(k)=pσ2+k2βTβ(1+k)2.
klimk0+
R(k)=2k(1+k)βTβ(pσ2+k2βTβ)(1+k)3
kk * > 0 R ( k * ) < R ( 0 )limk0+R(k)=2pσ2<0k>0R(k)<R(0)

Các tác giả nhận xét rằng tính trực giao là tốt nhất mà bạn có thể hy vọng về rủi ro ở và khi số điều kiện của tăng lên, phương pháp tiếp cận .X T X lim k 0 + R ' ( k ) - k=0XTXlimk0+R(k)

Bình luận

Dường như có một nghịch lý ở đây, nếu và không đổi, thì chúng ta chỉ đang ước tính giá trị trung bình của một chuỗi các biến Bình thường và chúng ta biết ước lượng không thiên vị vanilla được chấp nhận trong trường hợp này. Điều này được giải quyết bằng cách lưu ý rằng lý do trên chỉ cung cấp rằng giá trị tối thiểu của tồn tại đối với cố định . Nhưng với bất kỳ nào , chúng ta có thể làm cho rủi ro bùng nổ bằng cách làm cho lớn, do đó, riêng đối số này không thể hiện sự chấp nhận đối với ước tính sườn núi.X ( β , σ 2 ) k β T β k β T βp=1X(β,σ2)kβTβkβTβ

Tại sao hồi quy sườn núi thường chỉ được khuyến nghị trong trường hợp các yếu tố dự đoán tương quan?

Dẫn xuất rủi ro của H & K cho thấy rằng nếu chúng tôi nghĩ rằng là nhỏ và nếu thiết kế gần như là số ít, thì chúng tôi có thể đạt được mức giảm lớn trong rủi ro ước tính. Tôi nghĩ rằng hồi quy sườn không được sử dụng phổ biến vì ước tính OLS là mặc định an toàn và các thuộc tính bất biến và không thiên vị là hấp dẫn. Khi thất bại, nó thất bại một cách trung thực - ma trận hiệp phương sai của bạn phát nổ. Có lẽ cũng có một điểm triết học / suy luận, rằng nếu thiết kế của bạn gần như là số ít và bạn có dữ liệu quan sát, thì việc giải thích khi thay đổi cho các thay đổi đơn vị trong là nghi ngờ - ma trận hiệp phương sai lớn là một triệu chứng đó. X T X β E Y XβTβXTXβEYX

Nhưng nếu mục tiêu của bạn chỉ là dự đoán, mối quan tâm suy diễn sẽ không còn nữa, và bạn có một lập luận mạnh mẽ cho việc sử dụng một số loại ước tính co ngót.


2
Ồ cảm ơn nhé! Hãy để tôi kiểm tra hiểu biết của tôi về phần "Nhận xét" của bạn: đối với mọi , một tối ưu là khác không, nhưng giá trị của nó là khác nhau đối với các betas khác nhau và không cố định nào có thể đánh bại cho tất cả các betas, đó là những gì cần thiết cho sự chấp nhận. Chính xác? Ngoài ra, bạn có thể nhận xét về câu hỏi chung của tôi: [Nếu định lý không đưa ra các giả định như vậy, thì] tại sao hồi quy sườn núi thường chỉ được đề xuất cho các dự đoán tương quan và không bao giờ được đề xuất cho hồi quy đơn giản (không phải nhiều)? Có phải vì hiệu ứng tích cực được biết đến theo kinh nghiệm là quá nhỏ để làm phiền? k k k = 0βkkk=0
amip nói phục hồi Monica

2
H & K luôn cho rằng có thứ hạng đầy đủ. Bằng cách nói rằng câu trả lời cho số 1 là "không", bạn có cho rằng kết quả của họ tiếp tục là đúng khi không? XX
whuber

3
@whuber: Trung tâm của rủi ro của họ là ước tính sườn núi , trong đó là ước tính OLS và . Điều này rõ ràng không thể giữ như vậy khi bị thiếu thứ hạng. Nhưng ước tính OLS không tồn tại - vì vậy có lẽ mọi ước tính có rủi ro hữu hạn (lấy đủ lớn và bạn sẽ nhận được , với rủi ro ) là tốt hơn hơn một công cụ ước tính không tồn tại? Theo như sự phát sinh rủi ro vẫn còn: tôi không chắc chắn. Một bằng chứng khác nhau sẽ là cần thiết. β Z=((XTX) - 1 +ktôip)-1XTXkβ^=Zβ^β^Z=((XTX)1+kIp)1XTXkβTββ^0βTβ
Andrew M

3
@amoeba: vâng, sự nghỉ ngơi của bạn có vẻ đúng. Để thống trị công cụ ước tính OLS, chúng ta cần một số loại thủ tục thích ứng , trong đó là một chức năng của dữ liệu. Về chủ đề khác của bạn, Xi'an đã có một nhận xét về ước tính sườn núi thích ứng, vì vậy đó có thể là một nơi để xem xét. RE: ước tính sườn núi cho các thiết kế trực giao - Tôi đã thêm một nhận xét khác theo như hướng dẫn tôi lấy từ bằng chứng của họ. λ
Andrew M
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.