Sự khác biệt giữa hồi quy Primal, Dual và Kernel Ridge


18

Sự khác biệt giữa hồi quy Primal , DualKernel Ridge là gì? Mọi người đang sử dụng cả ba và vì ký hiệu khác nhau mà mọi người sử dụng ở các nguồn khác nhau rất khó để tôi theo dõi.

Vì vậy, ai đó có thể nói với tôi bằng những từ đơn giản, sự khác biệt giữa ba là gì? Ngoài ra những gì có thể là một số lợi thế hoặc bất lợi của mỗi, và những gì có thể là phức tạp của họ?

Câu trả lời:


39

Câu trả lời ngắn: không có sự khác biệt giữa Primal và Dual - đó chỉ là về cách đi đến giải pháp. Hồi quy sườn hạt nhân về cơ bản giống như hồi quy sườn núi thông thường, nhưng sử dụng thủ thuật kernel để đi phi tuyến tính.

Hồi quy tuyến tính

Trước hết, một hồi quy tuyến tính tối thiểu thông thường cố gắng khớp một đường thẳng với tập hợp các điểm dữ liệu theo cách sao cho tổng các lỗi bình phương là tối thiểu.

nhập mô tả hình ảnh ở đây

Chúng tôi tham số dòng phù hợp nhất với w và với mỗi điểm dữ liệu (xi,yi) chúng tôi muốn wTxiyi . Đặt ei=yiwTxi là lỗi - khoảng cách giữa giá trị dự đoán và giá trị thực. Vì vậy, mục tiêu của chúng tôi là để giảm thiểu tổng của bình phương lỗi ei2=e2=Xwy2trong đó X=[x1x2xn]- một ma trận dữ liệu với mỗixilà liên tiếp, vày=(y1, ... ,yn)một vector với tất cả cácyi's.

Do đó, mục tiêu là minwXwy2 , và giải pháp làw=(XTX)1XTy (được gọi là "Normal Equation").

Đối với một điểm dữ liệu chưa thấy x chúng tôi dự đoán giá trị mục tiêu của nóy^ như y =wTx.y^=wTx

Hồi quy sườn

Khi có nhiều biến tương quan trong các mô hình hồi quy tuyến tính, các hệ số w có thể được xác định kém và có nhiều phương sai. Một trong những giải pháp cho vấn đề này là để hạn chế trọng lượng w vì vậy họ không vượt quá một số ngân sách C . Điều này tương đương với việc sử dụng L2 hóa, còn được gọi là "phân rã trọng lượng": nó sẽ làm giảm phương sai với chi phí đôi khi thiếu kết quả chính xác (nghĩa là bằng cách đưa ra một số sai lệch).

Mục tiêu bây giờ trở thành minwXwy2+λw2 , vớiλ là tham số quy tắc. Bằng cách đi qua toán học, chúng ta có được những giải pháp sau đây:w=(XTX+λI)1XTy . Nó rất giống với hồi quy tuyến tính thông thường, nhưng ở đây chúng ta thêmλ để mỗi phần tử đường chéo củaXTX .

Lưu ý rằng chúng ta có thể viết lại ww=XT(XXT+λI)1y (xemtại đâyđể biết chi tiết). Đối với một điểm dữ liệu vô hình mớix chúng tôi dự đoán giá trị mục tiêu của nó y nhưy^y^=xTw=xTXT(XXT+λI)1y . Hãyα=(XXT+λI)1y . Sau đó, y = x T X T α = n Σy^=xTXTα=i=1nαixTxi.

Hình thức kép Regression

Chúng ta có thể có một cái nhìn khác về mục tiêu của mình - và xác định vấn đề chương trình bậc hai sau:

mine,wi=1nei2 stei=yiwTxi choi=1..nw2C .

Đó là cùng một mục tiêu, nhưng được thể hiện hơi khác nhau, và ở đây ràng buộc về kích thước của w là rõ ràng. Để giải quyết nó, chúng tôi định nghĩa Lagrangian Lp(w,e;C) - đây là dạng nguyên tố có chứa các biến số nguyên tố we . Sau đó, chúng tôi tối ưu hóa nó wrt ew . Để có được công thức kép, chúng tôi đã tìm thấy ew trở lại Lp(w,e;C) .

Vì vậy, Lp(w,e;C)=e2+βT(yXwe)λ(w2C) . Bằng cách lấy dẫn xuất wrtwe , ta thu đượce=12βw=12λXTβ. Bằng cách choα=12λβ, và đưaewtrở lạiLp(w,e;C), chúng tôi nhận kép LagrangeLd(α,λ;C)=λ2α2+2λαTyλXTαλC . Nếu chúng ta lấy một wrt phái sinhα , chúng tôi getα=(XXTλI)1y - câu trả lời tương tự như đối với hồi quy Kernel Ridge bình thường. Không cần phải có một văn bản phái sinhλ - nó phụ thuộc vàoC , đó là một tham số quy tắc - và nó làm choλ tham số quy tắc là tốt.

Tiếp theo, đặt α vào giải pháp dạng nguyên thủy cho w và nhận w=12λXTβ=XTα. Do đó, dạng kép cho cùng một giải pháp như Hồi quy Ridge thông thường và đó chỉ là một cách khác để đi đến cùng một giải pháp.

Hồi quy hạt nhân

Hạt nhân được sử dụng để tính toán sản phẩm bên trong của hai vectơ trong một số không gian đặc trưng mà không cần truy cập nó. Chúng ta có thể xem một hạt nhân k như k(x1,x2)=ϕ(x1)Tϕ(x2) , mặc dù chúng tôi không biết những gì ϕ() là - chúng ta chỉ biết nó tồn tại. Có nhiều hạt nhân, ví dụ RBF, Polynonial, v.v.

Chúng ta có thể sử dụng hạt nhân để làm cho Regression Ridge không tuyến tính. Giả sử chúng ta có một hạt nhân k(x1,x2)=ϕ(x1)Tϕ(x2) . Hãy Φ(X) là một ma trận mà mỗi hàng là ϕ(xi) , tức là Φ(X)=[ϕ(x1)ϕ(x2)ϕ(xn)]

Bây giờ chúng ta chỉ có thể lấy giải pháp cho Ridge Regression và thay thế mỗi X với Φ(X) : w=Φ(X)T(Φ(X)Φ(X)T+λI)1y . Đối với một điểm dữ liệu vô hình mớix chúng tôi dự đoán giá trị mục tiêu của nó y như y = φ ( x ) T Φ ( X ) Ty^y^=ϕ(x)TΦ(X)T(Φ(X)Φ(X)T+λI)1y .

Đầu tiên, chúng ta có thể thay thế Φ(X)Φ(X)T bởi một ma trận K , được tính như (K)ij=k(xi,xj) . Sau đó, ϕ(x)TΦ(X)Ti=1nϕ(x)Tϕ(xi)=i=1nk(x,xj). Vì vậy, ở đây chúng tôi quản lý để thể hiện mỗi sản phẩm chấm của vấn đề về hạt nhân.

Cuối cùng, bằng cách cho phép α=(K+λI)1y (như trước đây), chúng tôi có được y = n Σ i = 1 α i k ( x , x j )y^=i=1nαik(x,xj)

Người giới thiệu


1
w

Câu trả lời tuyệt vời, Alexey (mặc dù tôi sẽ không gọi nó là "những từ đơn giản")! +1 không có câu hỏi nào. Bạn thích viết bằng LaTeX, phải không?
Alexanderr Blekh

2
Tôi nghi ngờ bạn có thể nhầm lẫn một số điều cơ bản ở đây. AFAIK, hồi quy sườn núi không phải là một phản ứng cũng không phải là cách đối phó với "những quan sát ồn ào". OLS đã làm điều đó. Hồi quy sườn là một công cụ được sử dụng để đối phó với sự gần gũi giữa các biến hồi quy. Những hiện tượng này hoàn toàn khác với tiếng ồn trong biến phụ thuộc.
whuber

1
1 người đánh bóng. Alexey bạn nói đúng, nó quá mức - quá nhiều tham số cho dữ liệu có sẵn - không thực sự nhiễu. [và thêm đủ kích thước cho kích thước mẫu cố định và tập hợp dữ liệu 'bất kỳ' sẽ trở thành thông đồng]. Vì vậy, hình ảnh 2 chiều tốt hơn cho RR sẽ là tất cả các điểm được nhóm xung quanh (0,1) với một điểm duy nhất tại (1,0) ['minh chứng' tham số độ dốc]. Xem ESL hình 3.9, trang 67 web.stanford.edu/~hastie/local.ftp/Springer/OLD/ ,. cũng xem xét hàm chi phí nguyên thủy: để tăng trọng lượng thêm 1 đơn vị, lỗi phải giảm theo1/λđơn vị
seanv507

1
Tôi tin rằng bạn có nghĩa là thêm λ các yếu tố đường chéo của XTX not subtract(?) in the ridge regression section. I applied the edit.
Heteroskedastic Jim
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.