Làm thế nào để rút ra giải pháp hồi quy sườn núi?


40

Tôi đang có một số vấn đề với việc tạo ra giải pháp cho hồi quy sườn núi.

Tôi biết giải pháp hồi quy mà không có thuật ngữ chính quy:

β=(XTX)1XTy.

λβ22

β=(XTX+λI)1XTy.

Câu trả lời:


23

Nó đủ để sửa đổi chức năng mất bằng cách thêm hình phạt. Theo thuật ngữ ma trận, hàm mất bậc hai ban đầu trở thành

(YXβ)T(YXβ)+λβTβ.
Xuất phát liên quan đến β dẫn đến phương trình bình thường
XTY=(XTX+λI)β
dẫn đến công cụ ước tính Ridge.

1
Làm thế nào mà đạo hàm của λβTβ bằng với λIβ
user34790

4
@ user34790 Không phải vậy. Nó bằng 2λβ . Nhưng 2 hủy bỏ với 2s tương tự trên các điều khoản khác. Tất nhiên, yếu tố I giống như hệ số 1 trong đại số "thông thường", bạn có thể nhân nó ở bất cứ đâu bạn muốn mà không thay đổi bất cứ điều gì.
Hóa đơn

4
@bill: ở đây bạn cần để có một ma trận có kích thước chính xác để phép cộng hoạt động với : chỉ là một vô hướngIXTXλ
Henry

47

Hãy xây dựng dựa trên những gì chúng ta biết, đó là bất cứ khi nào ma trận mô hình là , thì -vector phản hồi là và tham số -vector là , hàm mục tiêun×pXnypβ

f(β)=(yXβ)(yXβ)

(là tổng bình phương của phần dư) được thu nhỏ khi giải các phương trình Bình thườngβ

(XX)β=Xy.

Hồi quy độ dốc thêm một thuật ngữ khác vào hàm mục tiêu (thường là sau khi chuẩn hóa tất cả các biến để đặt chúng trên một nền tảng chung), yêu cầu giảm thiểu

(yXβ)(yXβ)+λββ

đối với một số hằng số không âm . Nó là tổng bình phương của phần dư cộng với bội số tổng bình phương của các hệ số (làm cho nó rõ ràng rằng nó có mức tối thiểu toàn cầu). Vì , nó có căn bậc hai dương .λλ0ν2=λ

Hãy xem xét các ma trận tăng cường với hàng tương ứng với lần so với ma trận sắc :Xνp×pI

X=(XνI)

Khi vector là tương tự như mở rộng với số không vào cuối để , sản phẩm ma trận trong hàm mục tiêu bổ sung điều khoản bổ sung có dạng đến mục tiêu ban đầu. vì thếypyp(0νβi)2=λβi2

(yXβ)(yXβ)=(yXβ)(yXβ)+λββ.

Từ dạng biểu thức tay trái, ngay lập tức các phương trình Bình thường là

(XX)β=Xy.

Vì chúng ta nối các số 0 ở cuối , phía bên tay phải giống với . Ở phía bên trái được thêm vào ban đầu . Do đó các phương trình Bình thường mới đơn giản hóa thànhyXyν2I=λIXX

(XX+λI)β=Xy.

Bên cạnh đó là về mặt kinh tế về mặt khái niệm - không cần các thao tác mới để có được kết quả này - nó cũng có tính kinh tế về mặt tính toán: phần mềm của bạn để thực hiện bình phương tối thiểu thông thường cũng sẽ thực hiện hồi quy sườn mà không có bất kỳ thay đổi nào. (Tuy nhiên, có thể hữu ích trong các vấn đề lớn khi sử dụng phần mềm được thiết kế cho mục đích này, vì nó sẽ khai thác cấu trúc đặc biệt của để thu được kết quả một cách hiệu quả trong khoảng thời gian dày đặc của , cho phép bạn khám phá cách các câu trả lời khác nhau với .)Xλλ

Một vẻ đẹp khác của cách nhìn này là cách nó có thể giúp chúng ta hiểu hồi quy sườn núi. Khi chúng ta muốn thực sự hiểu hồi quy, hầu như luôn luôn nghĩ về nó về mặt hình học: các cột của tạo thành các vectơ trong một không gian vectơ thực có kích thước . Bằng cách nối với , do đó kéo dài chúng từ -vector thành -vector, chúng tôi đang nhúng vào một không gian lớn hơn bằng cách bao gồm "Tưởng tượng", hướng trực giao lẫn nhau. Cột đầu tiên củaXpnνIXnn+pRnRn+ppXđược cung cấp một thành phần tưởng tượng nhỏ có kích thước , do đó kéo dài nó và di chuyển nó ra khỏi không gian được tạo bởi các cột ban đầu . Các cột thứ hai, thứ ba, ..., được kéo dài tương tự và di chuyển ra khỏi không gian ban đầu với cùng một lượng - nhưng tất cả theo các hướng mới khác nhau. Do đó, bất kỳ sự cộng tác nào có trong các cột ban đầu sẽ ngay lập tức được giải quyết. Hơn nữa, càng lớn, các vectơ mới này càng tiếp cận với từngνppthννphướng tưởng tượng: chúng ngày càng trở nên trực giao hơn. Do đó, giải pháp của các phương trình Bình thường sẽ ngay lập tức trở nên khả thi và nó sẽ nhanh chóng ổn định về mặt số khi tăng từ .ν0

Mô tả về quy trình này cho thấy một số phương pháp tiếp cận mới lạ và sáng tạo để giải quyết các vấn đề mà Regression Ridge được thiết kế để xử lý. Ví dụ, bằng cách sử dụng bất kỳ phương tiện nào (chẳng hạn như phân rã phương sai được mô tả bởi Belsley, Kuh và Welsch trong cuốn sách năm 1980 về Chẩn đoán hồi quy , Chương 3), bạn có thể xác định các nhóm con của các cột gần như của , trong đó mỗi nhóm phụ gần như trực giao với bất kỳ khác. Bạn chỉ cần nối nhiều hàng với (và số 0 cho ) vì có các phần tử trong nhóm lớn nhất, dành một thứ nguyên "tưởng tượng" mới để di chuyển từng phần tử của một nhóm ra khỏi anh chị em của nó: bạn không cần tưởng tượng kích thước để làm điều này.XXyp


2
Tác giả cuối cùng của cuốn sách là Welsch, không phải người xứ Wales.
Mark L. Stone

1
Whoa, điều này chỉ thổi vào tâm trí của tôi. Có cuộc thảo luận nào về những gì xảy ra khi điều này được khái quát bên ngoài các mô hình tuyến tính, tức là với glm không? Hình phạt không nên xếp hàng giống như hồi quy sườn núi ... nhưng cách giải thích này ngụ ý rằng nó vẫn sẽ là một công cụ ước tính hữu ích tiềm năng!
Vách đá AB

2
@Cliff Đó là một gợi ý rất thú vị. Tuy nhiên, vì các ước tính GLM phụ thuộc một cách phức tạp hơn vào và các ước tính của chúng thường không thể được xác định ở dạng vì chúng dành cho OLS (trong đó và ), nó có thể khó khăn để thiết lập một mối quan hệ hữu ích giữa áp đặt một chức năng phạt và sửa đổi các cột của . Cụ thể, không rõ các giá trị trong sẽ cần được tăng cường như thế nào để thực hiện công việc này. X
β^=g(X)h(y)
g(X)=(XX)1Xh(y)=yXy
whuber

1
Vâng, sẽ có một số suy nghĩ để cố gắng thiết lập hình phạt là gì, nhưng tôi không quá quan tâm đến điều đó. Ý tưởng về những gì sử dụng thường không dễ dàng ... ngoại trừ trong trường hợp hồi quy logistic, trong đó chúng ta có thể thêm hai 's; một trong 0 và một trong 1. Sự gia tăng này sau đó sẽ là một phiên bản tổng quát hơn của "công cụ ước tính nhị thức +2" (có một tên thích hợp hơn cho công cụ ước tính này mà tôi đang bỏ trống, về cơ bản là khi bạn ước tính từ phân phối nhị thức bằng cách sử dụng nghĩa sau ước tính với một đồng phục trước trên ). y ypp
Vách đá AB

@Mark Cảm ơn bạn đã sửa chữa. Bạn có thể nói tôi đã đi từ bộ nhớ ... :-).
whuber

20

Đạo hàm bao gồm phép tính ma trận, có thể khá tẻ nhạt. Chúng tôi muốn giải quyết vấn đề sau:

minβ(YβTX)T(YβTX)+λβTβ

Bây giờ lưu ý rằng và Cùng nhau chúng ta có được điều kiện đặt hàng đầu tiên Cô lập mang lại giải pháp:

(YβTX)T(YβTX)β=2XT(YβTX)
λβTββ=2λβ.
XTY=XTXβ+λβ.
β
β=(XTX+λI)1XTY.

9

Gần đây tôi đã vấp phải câu hỏi tương tự trong bối cảnh của P-Splines và vì khái niệm này giống nhau nên tôi muốn đưa ra một câu trả lời chi tiết hơn về đạo hàm của công cụ ước tính sườn núi.

Chúng tôi bắt đầu với một chức năng tiêu chí bị phạt khác với chức năng tiêu chí OLS cổ điển bởi thời hạn xử phạt của nó trong bản tóm tắt cuối cùng:

CriterionRidge=i=1n(yixiTβ)2+λj=1pβj2

Ở đâu

  • p= lượng biến số được sử dụng trong mô hình
  • xiTβ= dự đoán tuyến tính tiêu chuẩn của bạn
  • triệu tập đầu tiên phản ánh MSE (phân kỳ bình phương của dự đoán từ giá trị thực) mà chúng tôi muốn giảm thiểu như bình thường
  • triệu tập thứ hai thể hiện hình phạt mà chúng tôi áp dụng trên các hệ số. Ở đây chúng ta đang ở trong bối cảnh Sườn núi ngụ ý Đo khoảng cách Euclidian và do đó mức độ 2 trong thời hạn xử phạt. Trong trường hợp của Lasso-Penalization, chúng tôi sẽ áp dụng mức 1 và mang lại một công cụ ước tính hoàn toàn khác.

Chúng ta có thể viết lại tiêu chí này trong ký hiệu ma trận và tiếp tục phá vỡ nó:

CriterionRidge=(yXβ)T(yXβ)+λβTβ

=yTyβTXTyyTXβ+βTxTXβ+λβTβ

=yTyβTXTyβTXTy+βTXTXβ+βTλIβ với là ma trận danh tínhI

=yTy2βTXTy+βT(XTX+λI)β

Bây giờ chúng tôi tìm kiếm giúp giảm thiểu tiêu chí của chúng tôi. Trong số những người khác, chúng tôi sử dụng quy tắc phân biệt ma trận mà chúng ta có thể áp dụng ở đây dưới dạng : βxTAxx=(A+AT)x=A symmetric2Ax(XTX+λI)Rn×n

CriterionRidgeβ=2XTy+2(XTX+λI)β=!0

(XTX+λI)β=XTy

et voilàβ^=(XTX+λI)1XTy


@Jahn, bạn có thể giải thích làm thế nào trở thành không? Tôi nghĩ rằng bạn chỉ cần áp dụng chuyển đổi trên nó, phải. Nhưng, bạn không thể chỉ áp dụng chuyển vị trên một thuật ngữ mà không áp dụng nó trên tất cả các phương trình. Tôi đang thiếu gì ở đây?
yTXβ
βTXTy
soạn thảo

1
@theateist Một vô hướng hoán vị là cùng một vô hướng.
Konstantin

2

Có một vài điều quan trọng còn thiếu trong các câu trả lời được đưa ra.

  1. Giải pháp cho bắt nguồn từ điều kiện cần thiết thứ nhất: mang lại . Nhưng điều này đã đủ chưa? Nghĩa là, giải pháp chỉ ở mức tối thiểu toàn cầu nếu hoàn toàn lồi. Điều này có thể được hiển thị là đúng.βfridge(β,λ)β=0β=(XTX+λI)1XTYfridge(β,λ)

  2. Một cách khác để xem xét vấn đề là xem sự tương đương giữa và bị ràng buộc với . OLS là viết tắt của bình phương tối thiểu bình thường. Từ phối cảnh này, chỉ là hàm Lagrangian được sử dụng để tìm cực tiểu toàn cầu của hàm mục tiêu lồi bị ràng buộc với hàm lồi .fridge(β,λ)fOLS(β)=(YβTX)T(YβTX)||β||22tfridge(β,λ)fOLS(β)||β||22

Một lời giải thích tốt về những điểm này và dẫn xuất của có thể được tìm thấy trong các ghi chú bài giảng hay này: http://math.bu.edu/people/cgineste/ classes / ma575 / p / w14_1.pdfβ

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.