Làm thế nào để tìm hệ số hồi quy


14

Trong hồi quy sườn núi, hàm mục tiêu để được giảm thiểu là:

RSS+λβj2.

Điều này có thể được tối ưu hóa bằng phương pháp số nhân Lagrange không? Hay là sự khác biệt thẳng?


1
Mối liên hệ giữa các tiêu đề (trong đó tập trung vào là gì λ ) và câu hỏi (mà dường như chỉ về βj )? Tôi lo ngại rằng "được tối ưu hóa" có thể có những cách hiểu khác nhau tùy thuộc vào biến nào được coi là biến có thể thay đổi và biến nào sẽ được sửa.
whuber

1
cảm ơn đã sửa đổi câu hỏi Tôi đã đọc rằng được tìm thấy bằng cách kiểm chứng chéo - nhưng tôi tin rằng phương tiện bạn có β j đã và sử dụng dữ liệu khác nhau để tìm tốt nhất λ Câu hỏi là - làm thế nào để bạn tìm thấy những β j là ở nơi đầu tiên khi λ là một người vô danh? λβjλβjλ
Minaj

Câu trả lời:


22

Có hai công thức cho vấn đề sườn núi. Điều thứ nhất là

βR=argminβ(yXβ)(yXβ)

tùy thuộc vào

jβj2s.

Công thức này cho thấy ràng buộc kích thước trên các hệ số hồi quy. Lưu ý những gì ràng buộc này ngụ ý; chúng ta đang buộc các hệ số phải nằm trong một quả bóng xung quanh nguồn gốc với bán kính .s

Công thức thứ hai chính xác là vấn đề của bạn

βR=argminβ(yXβ)(yXβ)+λβj2

có thể được xem như là công thức nhân số lớn. Lưu ý rằng đây là một tham số điều chỉnh và giá trị lớn hơn của nó sẽ dẫn đến co rút lớn hơn. Bạn có thể tiến hành để phân biệt các biểu hiện liên quan đến với β và có được ước lượng sườn núi nổi tiếngλβ

(1)βR=(XX+λI)1Xy

Hai công thức là hoàn toàn tương đương , vì có sự tương ứng một-một giữa λ .sλ

Hãy để tôi giải thích một chút về điều đó. Hãy tưởng tượng rằng bạn đang ở trong trường hợp trực giao lý tưởng, . Đây là một tình huống rất đơn giản và không thực tế nhưng chúng ta có thể điều tra người ước tính chặt chẽ hơn một chút để chịu đựng tôi. Xem xét những gì xảy ra với phương trình (1). Công cụ ước tính sườn núi giảm xuốngXX=I

βR=(I+λI)1Xy=(I+λI)1βOLS

như trong trường hợp trực giao, công cụ ước lượng OLS được cho bởi . Nhìn vào thành phần này bây giờ chúng ta có đượcβOLS=Xy

(2)βR=βOLS1+λ

Lưu ý rằng bây giờ độ co là không đổi cho tất cả các hệ số. Điều này có thể không giữ trong trường hợp tổng quát và thực sự nó có thể được chỉ ra rằng shrinkages sẽ rất khác nhau nếu có degeneracies trong ma trận.XX

Nhưng hãy trở lại vấn đề tối ưu hóa bị ràng buộc. Theo lý thuyết KKT , một điều kiện cần thiết cho sự tối ưu là

λ(βR,j2s)=0

do đó, hoặc hoặc Σ beta 2 R , j - s = 0 (trong trường hợp này chúng ta nói rằng các hạn chế có tính ràng buộc). Nếu λ = 0 thì không có hình phạt và chúng tôi đang trở lại trong tình hình OLS thông thường. Giả sử sau đó ràng buộc là ràng buộc và chúng ta đang ở trong tình huống thứ hai. Sử dụng công thức trong (2), sau đó chúng ta cóλ=0βR,j2s=0λ=0

s=βR,j2=1(1+λ)2βOLS,j2

từ đâu chúng ta có được

λ=βOLS,j2s1

mối quan hệ một đối một trước đây đã tuyên bố. Tôi hy vọng điều này là khó khăn hơn để thiết lập trong trường hợp không trực giao nhưng kết quả mang lại bất kể.

Nhìn lại (2) mặc dù và bạn sẽ thấy chúng ta vẫn đang thiếu . Để có được giá trị tối ưu cho nó, bạn có thể sử dụng xác thực chéo hoặc nhìn vào dấu vết sườn núi. Phương pháp thứ hai liên quan đến việc xây dựng một chuỗi λ in (0,1) và xem cách các ước tính thay đổi. Sau đó, bạn chọn λ ổn định chúng. Phương pháp này đã được đề xuất trong phần thứ hai của các tài liệu tham khảo dưới đây và là phương pháp cũ nhất.λλλ

Người giới thiệu

Hoerl, Arthur E. và Robert W. Kennard. "Hồi quy độ dốc: Ước tính thiên vị cho các vấn đề phi chính thống." Kỹ thuật 12.1 (1970): 55-67.

Hoerl, Arthur E. và Robert W. Kennard. "Hồi quy độ dốc: ứng dụng cho các vấn đề phi chính thống." Kỹ thuật 12.1 (1970): 69-82.


2
Hồi quy @Minaj Ridge có độ co rút không đổi cho tất cả các hệ số (trừ hệ số chặn). Đó là lý do tại sao chỉ có một số nhân.
JohnK

2
@amoeba Đây là một gợi ý của Hoerl và Kennard, những người đã giới thiệu hồi quy sườn núi vào những năm 1970. Dựa trên kinh nghiệm của họ - và của tôi - các hệ số sẽ ổn định trong khoảng đó ngay cả với mức độ đa hình cực đoan. Tất nhiên, đây là một chiến lược theo kinh nghiệm và vì vậy nó không được đảm bảo để hoạt động mọi lúc.
JohnK

2
Bạn cũng có thể thực hiện phương pháp quan sát giả và lấy các ước tính không có gì phức tạp hơn một chương trình hồi quy bình phương nhỏ nhất. Bạn cũng có thể nghiên cứu ảnh hưởng của việc thay đổi trong một thời trang tương tự. λ
Glen_b -Reinstate Monica

2
@amoeba Đúng là sườn núi không phải là bất biến tỷ lệ, đó là lý do tại sao việc chuẩn hóa dữ liệu trước đó là thông lệ. Tôi đã bao gồm các tài liệu tham khảo có liên quan trong trường hợp bạn muốn xem qua. Chúng vô cùng thú vị và không quá kỹ thuật.
JohnK

2
@JohnK trong hồi quy sườn núi hiệu ứng co lại mỗi bằng một số tiền khác nhau, do đó co phải là không đổi mặc dù chỉ có một tham số co rút λ . βλ
Frank Harrell

4

Cuốn sách của tôi Regression Modeling Chiến lược đào sâu vào việc sử dụng hiệu quả AIC cho việc lựa chọn . Điều này xuất phát từ khả năng log phạt và mức độ hiệu quả của tự do, sau này trở thành một chức năng của bao nhiêu chênh lệch của β được giảm bằng cách xử phạt. Một bài trình bày về điều này là ở đây . R gói phát hiện bước sóng tối ưu hóa hiệu quả AIC, và cũng cho phép nhiều tham số hình phạt (ví dụ, một cho tác dụng chính tuyến tính, một cho các hiệu ứng phi tuyến chính, một cho hiệu ứng tương tác tuyến tính, và một cho các hiệu ứng tương tác phi tuyến).λβ^rmspentraceλ


1
+1. Bạn nghĩ gì về việc sử dụng lỗi CV rời khỏi, được tính toán thông qua công thức rõ ràng (nghĩa là không thực sự thực hiện CV), để chọn ? Bạn có ý tưởng nào về cách nó trong thực tế so sánh với "AIC hiệu quả" không? λ
amip nói rằng Phục hồi lại

Tôi đã không nghiên cứu điều đó. LOOCV mất rất nhiều tính toán.
Frank Harrell

Không, nếu công thức rõ ràng được sử dụng: stats.stackexchange.com/questions/32542 .
amip nói rằng Phục hồi lại

1
Công thức đó hoạt động cho trường hợp đặc biệt của OLS, không phải cho khả năng tối đa nói chung. Nhưng có một công thức gần đúng bằng cách sử dụng số điểm dư. Tôi nhận ra rằng chúng ta chủ yếu nói về OLS trong cuộc thảo luận này.
Frank Harrell

1

Tôi không làm điều đó một cách phân tích, mà là bằng số. Tôi thường vẽ RMSE so với như vậy:

enter image description here

Hình 1. RMSE và hằng số λ hoặc alpha.


Điều này có nghĩa là bạn sửa một giá trị nhất định của λ và sau đó phân biệt biểu thức để tìm βjSau đó, bạn tính toán RMSE và thực hiện lại quy trình cho các giá trị mới của λ?
Minaj
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.