Câu trả lời ngắn: không có sự khác biệt giữa Primal và Dual - đó chỉ là về cách đi đến giải pháp. Hồi quy sườn hạt nhân về cơ bản giống như hồi quy sườn núi thông thường, nhưng sử dụng thủ thuật kernel để đi phi tuyến tính.
Hồi quy tuyến tính
Trước hết, một hồi quy tuyến tính tối thiểu thông thường cố gắng khớp một đường thẳng với tập hợp các điểm dữ liệu theo cách sao cho tổng các lỗi bình phương là tối thiểu.
Chúng tôi tham số dòng phù hợp nhất với w và với mỗi điểm dữ liệu (xi,yi) chúng tôi muốn wTxi≈yi . Đặt ei=yi−wTxi là lỗi - khoảng cách giữa giá trị dự đoán và giá trị thực. Vì vậy, mục tiêu của chúng tôi là để giảm thiểu tổng của bình phương lỗi ∑e2i=∥e∥2=∥Xw−y∥2trong đó X=⎡⎣⎢⎢⎢⎢—x1——x2—⋮—xn—⎤⎦⎥⎥⎥⎥- một ma trận dữ liệu với mỗixilà liên tiếp, vày=(y1, ... ,yn)một vector với tất cả cácyi's.
Do đó, mục tiêu là minw∥Xw−y∥2 , và giải pháp làw=(XTX)−1XTy (được gọi là "Normal Equation").
Đối với một điểm dữ liệu chưa thấy x chúng tôi dự đoán giá trị mục tiêu của nóy^ như y =wTx.y^=wTx
Hồi quy sườn
Khi có nhiều biến tương quan trong các mô hình hồi quy tuyến tính, các hệ số w có thể được xác định kém và có nhiều phương sai. Một trong những giải pháp cho vấn đề này là để hạn chế trọng lượng w vì vậy họ không vượt quá một số ngân sách C . Điều này tương đương với việc sử dụng L2 hóa, còn được gọi là "phân rã trọng lượng": nó sẽ làm giảm phương sai với chi phí đôi khi thiếu kết quả chính xác (nghĩa là bằng cách đưa ra một số sai lệch).
Mục tiêu bây giờ trở thành minw∥Xw−y∥2+λ∥w∥2 , vớiλ là tham số quy tắc. Bằng cách đi qua toán học, chúng ta có được những giải pháp sau đây:w=(XTX+λI)−1XTy . Nó rất giống với hồi quy tuyến tính thông thường, nhưng ở đây chúng ta thêmλ để mỗi phần tử đường chéo củaXTX .
Lưu ý rằng chúng ta có thể viết lại w là w=XT(XXT+λI)−1y (xemtại đâyđể biết chi tiết). Đối với một điểm dữ liệu vô hình mớix chúng tôi dự đoán giá trị mục tiêu của nó y nhưy^y^=xTw=xTXT(XXT+λI)−1y . Hãyα=(XXT+λI)−1y . Sau đó, y = x T X T α = n Σy^=xTXTα=∑i=1nαi⋅xTxi.
Hình thức kép Regression
Chúng ta có thể có một cái nhìn khác về mục tiêu của mình - và xác định vấn đề chương trình bậc hai sau:
mine,w∑i=1ne2i stei=yi−wTxi choi=1..n và∥w∥2⩽C .
Đó là cùng một mục tiêu, nhưng được thể hiện hơi khác nhau, và ở đây ràng buộc về kích thước của w là rõ ràng. Để giải quyết nó, chúng tôi định nghĩa Lagrangian Lp(w,e;C) - đây là dạng nguyên tố có chứa các biến số nguyên tố w và e . Sau đó, chúng tôi tối ưu hóa nó wrt e và w . Để có được công thức kép, chúng tôi đã tìm thấy e và w trở lại Lp(w,e;C) .
Vì vậy, Lp(w,e;C)=∥e∥2+βT(y−Xw−e)−λ(∥w∥2−C) . Bằng cách lấy dẫn xuất wrtw và e , ta thu đượce=12βvàw=12λXTβ. Bằng cách choα=12λβ, và đưaevàwtrở lạiLp(w,e;C), chúng tôi nhận kép LagrangeLd(α,λ;C)=−λ2∥α∥2+2λαTy−λ∥XTα∥−λC . Nếu chúng ta lấy một wrt phái sinhα , chúng tôi getα=(XXT−λI)−1y - câu trả lời tương tự như đối với hồi quy Kernel Ridge bình thường. Không cần phải có một văn bản phái sinhλ - nó phụ thuộc vàoC , đó là một tham số quy tắc - và nó làm choλ tham số quy tắc là tốt.
Tiếp theo, đặt α vào giải pháp dạng nguyên thủy cho w và nhận w=12λXTβ=XTα. Do đó, dạng kép cho cùng một giải pháp như Hồi quy Ridge thông thường và đó chỉ là một cách khác để đi đến cùng một giải pháp.
Hồi quy hạt nhân
Hạt nhân được sử dụng để tính toán sản phẩm bên trong của hai vectơ trong một số không gian đặc trưng mà không cần truy cập nó. Chúng ta có thể xem một hạt nhân k như k(x1,x2)=ϕ(x1)Tϕ(x2) , mặc dù chúng tôi không biết những gì ϕ(⋅) là - chúng ta chỉ biết nó tồn tại. Có nhiều hạt nhân, ví dụ RBF, Polynonial, v.v.
Chúng ta có thể sử dụng hạt nhân để làm cho Regression Ridge không tuyến tính. Giả sử chúng ta có một hạt nhân k(x1,x2)=ϕ(x1)Tϕ(x2) . Hãy Φ(X) là một ma trận mà mỗi hàng là ϕ(xi) , tức là Φ(X)=⎡⎣⎢⎢⎢⎢⎢—ϕ(x1)——ϕ(x2)—⋮—ϕ(xn)—⎤⎦⎥⎥⎥⎥⎥
Bây giờ chúng ta chỉ có thể lấy giải pháp cho Ridge Regression và thay thế mỗi X với Φ(X) : w=Φ(X)T(Φ(X)Φ(X)T+λI)−1y . Đối với một điểm dữ liệu vô hình mớix chúng tôi dự đoán giá trị mục tiêu của nó y như y = φ ( x ) T Φ ( X ) Ty^y^=ϕ(x)TΦ(X)T(Φ(X)Φ(X)T+λI)−1y .
Đầu tiên, chúng ta có thể thay thế Φ(X)Φ(X)T bởi một ma trận K , được tính như (K)ij=k(xi,xj) . Sau đó, ϕ(x)TΦ(X)T là ∑i=1nϕ(x)Tϕ(xi)=∑i=1nk(x,xj). Vì vậy, ở đây chúng tôi quản lý để thể hiện mỗi sản phẩm chấm của vấn đề về hạt nhân.
Cuối cùng, bằng cách cho phép α=(K+λI)−1y (như trước đây), chúng tôi có được y = n Σ i = 1 α i k ( x , x j )y^=∑i=1nαik(x,xj)
Người giới thiệu