Công thức hồi quy sườn như bị ràng buộc so với bị phạt: Làm thế nào chúng tương đương?


10

Tôi dường như đang hiểu nhầm một tuyên bố về các phương pháp hồi quy tuyến tính mà tôi đã thấy ở nhiều nơi. Các tham số của vấn đề là:

Đầu vào:

N mẫu dữ liệu của số lượng mỗi đại lượng bao gồm số lượng "phản hồi" y_ip "dự đoán" số lượng x_ {ij}p+1yipxij

Kết quả mong muốn là "sự phù hợp tuyến tính tốt" dự đoán đáp ứng dựa trên các yếu tố dự đoán trong đó mức độ phù hợp tốt có sự khác biệt nhỏ giữa dự đoán và phản ứng quan sát (trong số các tiêu chí khác).

Đầu ra: p+1 hệ số βj trong đó β0+j=1pxijβj là "phù hợp tốt" để dự đoán số lượng phản hồi từ số lượng dự đoán.

Tôi bối rối về cách tiếp cận "hồi quy sườn" cho vấn đề này. Trong "Các yếu tố của học thống kê" của Hastie, Tibshirani và Friedman trang 63 hồi quy sườn núi được xây dựng theo hai cách.

Đầu tiên là vấn đề tối ưu hóa bị ràng buộc :

p Σ j

argminβi=1N(yi(β0+j=1p(xijβj)))2
chịu sự ràng buộc cho một số tham số dương t.
j=1pβi2t

Thứ hai là vấn đề tối ưu hóa bị phạt : cho một số tham số dương . λ

argminβ(λj=1pβj2)+i=1N(yi(β0+j=1p(xijβj)))2
λ

Văn bản nói rằng các công thức này là tương đương và có "sự tương ứng 1-1 giữa các tham số và ". Tôi đã thấy yêu cầu này (và những yêu cầu tương tự) ở một số nơi ngoài cuốn sách này. Tôi nghĩ rằng tôi đang thiếu một cái gì đó bởi vì tôi không thấy các công thức tương đương như thế nào khi tôi hiểu nó.tλt

Hãy xem xét trường hợp và với , và , . Chọn tham số , công thức bị ràng buộc trở thành:p = 1 y 1 = 0 x 1 , 1 = 0 y 2 = 1N=2p=1y1=0x1,1=0y2=1t = 2x1,2=1t=2

argminβ0,β1(β02+(1(β0+β1))2)

mở rộng đến

argminβ0,β1(2β02+2β0β12β0+β122β1+1)

Để giải quyết vấn đề này, hãy tìm giải pháp trong đó các đạo hàm riêng liên quan đến và bằng 0: với giải pháp và . Lưu ý rằng theo yêu cầu.β 1 4 β 0 + 2 β 1 - 2 = 0 2 β 0 + 2 β 1 - 2 = 0 β 0 = 0 β 1 = 1 β 2 0 + β 2 1tβ0β1

4β0+2β12=0
2β0+2β12=0
β0=0β1=1β02+β12t

Làm thế nào dẫn xuất này liên quan đến công thức khác? Theo giải thích, có một số giá trị của tương ứng duy nhất với nếu chúng ta tối ưu hóa công thức bị phạt của vấn đề, chúng ta sẽ rút ra cùng một và . Trong trường hợp này, hình thức bị phạt trở thành mở rộng thành Để giải quyết vấn đề này, hãy tìm giải pháp trong đó các đạo hàm riêng kính trọngt β 0 β 1 một r g m i n β 0 , β 1 β 0 β 1 - 2 β 0 +λtβ0β1một r g m i n β bước sóng + 2 β 2 0 + 2

argminβ0,β1(λ(β02+β12)+β02+(1(β0+β1))2)
β 0 β 1 2 β 0 λ + 4 β 0 + 2 β 1 - 2 β 1 - 2 = 0 β 0 = λ / ( λ 2 + 3 λ + 1
argminβ0,β1(β02λ+2β02+2β0β12β0+β12λ+β122β1+1)
β0 và bằng 0: cho các phương trình này Tôi nhận được giải pháp Nếu đó là cách duy nhất để có được là đặt . Tuy nhiên, đó sẽ là cùng một mà chúng ta sẽ cần cho , vậy ý ​​nghĩa của "một đối một" là gì?β12 β 0 + 2 β 1 λ +
2β0λ+4β0+2β12=0
2β0+2β1λ+2β12=0
β0=λ/(λ2+3λ+1)
β1=(λ+1)/((λ+1)(λ+2)1)
β0=0λ=0λt=4

Tóm lại, tôi hoàn toàn bối rối bởi hai bài thuyết trình và tôi không hiểu chúng tương ứng với nhau như thế nào. Tôi không hiểu làm thế nào bạn có thể tối ưu hóa một hình thức và nhận được cùng một giải pháp cho hình thức khác hoặc làm thế nào có liên quan đến . Đây chỉ là một ví dụ của loại thư tín này - có những cách khác cho các cách tiếp cận khác như lasso - và tôi không hiểu bất kỳ trong số chúng.tλt

Ai đó làm ơn giúp tôi với.


1
Liên quan: stats.stackexchange.com/questions/190993 (xem câu trả lời được chấp nhận).
amip

1
Liên kết "có liên quan" xác nhận lại sự tương ứng được thảo luận trong câu hỏi mà không giải quyết câu hỏi này hoặc trường hợp ví dụ được hiển thị. Tôi không nghĩ rằng nó trả lời câu hỏi này.
Aaron Watters

Câu trả lời:


6

Sự nhầm lẫn ở đây xuất phát từ việc cố gắng làm việc trong một phạm vi các giá trị hoặc trong đó không có ràng buộc nào đối với hồi quy.λtλ

Trong ví dụ của bạn, ở mức phù hợp hoàn hảo của đường hồi quy, tổng bình phương của các hệ số hồi quy là 1. Vì vậy, giá trị của (hoặc bất kỳ giá trị nào của là 1 hoặc lớn hơn) không bị ràng buộc đối với hồi quy. Trong không gian của giá trị , toàn bộ hồi quy không giới hạn được biểu diễn bằng . Không có sự tương ứng một-một giữa và trong hồi quy không giới hạn ; tất cả các giá trị từ 1 trở lên trong trường hợp này tương ứng với . Đó là khu vực mà bạn đã được điều tra.t λ λ = 0 t λ t λ = 0t=2tλλ=0tλ tλ=0

Chỉ một giá trị nhỏ hơn 1 sẽ đặt ràng buộc cho hồi quy, tương ứng với các giá trị dương của . Như câu trả lời được chấp nhận cho trang này hiển thị, sự tương ứng một-một giữa và giữ " khi ràng buộc là ràng buộc ", trong ví dụ của bạn cho các giá trị nhỏ hơn 1.λ t λ ttλtλt


Trong trường hợp đó, họ nên khẳng định rằng các ràng buộc phải ràng buộc. Điều đó có nghĩa là chúng ta phải có để tương đương có hiệu lực? βj2=t
Aaron Watters

1
Công bằng mà nói, tôi không nghĩ rằng mọi người lo lắng quá nhiều về các chi tiết tối ưu hóa bị ràng buộc khi ràng buộc không ràng buộc. Sau đó, bạn chỉ cần có được giải pháp bình phương nhỏ nhất bình thường. Khi ràng buộc ràng buộc, tối ưu hóa sẽ đưa ra một kết quả duy nhất trên ranh giới của tập ràng buộc sao cho , cung cấp tương đương một-một của với trong trường hợp đó. t λβj2=ttλ
EdM

+1. Nếu ràng buộc không ràng buộc thì vẫn có sự tương ứng giữa và nhưng nó không phải là một đối một: mọi ánh xạ ràng buộc với như được tính toán chính xác bởi @Aaron. λ t λ = 0tλtλ=0
amip

FYI, tôi là một lập trình viên. Điều quan trọng là phải biết khi nào một phương pháp phù hợp khi bạn đang viết chương trình máy tính. "Ràng buộc phải ràng buộc" dường như được bỏ qua trong nhiều bài trình bày về phương pháp.
Aaron Watters

4

Hồi quy Ridge cổ điển ( Tikhonov chính quy ) được đưa ra bởi:

argminx12xy22+λx22

Yêu cầu ở trên là vấn đề sau là tương đương:

argminx12xy22subject tox22t

Hãy xác định là giải pháp tối ưu cho vấn đề thứ nhất và là giải pháp tối ưu cho vấn đề thứ hai.x^x~

Yêu cầu tương đương có nghĩa là . Cụ thể, bạn luôn có thể có một cặp và như vậy giải pháp cho vấn đề là như nhau.t,λ0:x^=x~
tλ0

Làm thế nào chúng ta có thể tìm thấy một cặp?
Vâng, bằng cách giải quyết các vấn đề và xem xét các tính chất của giải pháp.
Cả hai vấn đề là lồi và trơn nên nó sẽ làm cho mọi thứ đơn giản hơn.

Giải pháp cho vấn đề đầu tiên được đưa ra tại điểm gradient biến mất có nghĩa là:

x^y+2λx^=0

Các điều kiện KKT của vấn đề thứ hai nêu:

x~y+2μx~=0

μ(x~22t)=0

Phương trình cuối cùng gợi ý rằng hoặc .~ x2μ=0x~22=t

Hãy chú ý rằng 2 phương trình cơ sở là tương đương.
Cụ thể là nếu và cả hai phương trình đều giữ. x^=x~μ=λ

Vì vậy, nó có nghĩa là trong trường hợp người ta phải đặt , điều đó có nghĩa là với đủ lớn để cả hai tương đương nhau thì phải đặt .μ=y22tμ=0tλ=0

Trong trường hợp khác, người ta nên tìm trong đó:μ

yt(I+2μI)1(I+2μI)1y=t

Điều này về cơ bản là khix~22=t

Khi bạn thấy rằng các giải pháp sẽ va chạm.μ

Về trường hợp , nó hoạt động với cùng một ý tưởng. Sự khác biệt duy nhất là chúng tôi không đóng giải pháp do đó việc kết nối trở nên khó khăn hơn.L1

Hãy xem câu trả lời của tôi tại StackExchange Cross xác thực Q291962Xử lý tín hiệu StackExchange Q21730 - Ý nghĩa của trong Theo đuổi cơ sởλ .


Mu đã đến từ đâu?
chiếu

Trên đây giải quyết 2 vấn đề khác nhau. Vì cái đầu tiên sử dụng tôi đã sử dụng làm Hệ số nhân Lagrange cho các ràng buộc bất bình đẳng của cái thứ hai. μλμ
Royi
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.