Hồi quy tuyến tính so với RKHS-hồi quy


9

Tôi đang nghiên cứu sự khác biệt giữa chính quy trong hồi quy RKHS và hồi quy tuyến tính, nhưng tôi gặp khó khăn trong việc nắm bắt sự khác biệt quan trọng giữa hai phương pháp này.

(xi,yi)f()

f(x)u(x)=i=1mαiK(x,xi),
K(,)αm
minαRn1nYKαRn2+λαTKα,
i,jKK(xi,xj)
α=(K+λnI)1Y.
minαRn1nYKαRn2+λαTα,
α=(KTK+λnI)1KTY.

Điều gì sẽ là sự khác biệt quan trọng giữa hai phương pháp này và giải pháp của họ?



@MThQ - Không phải mô tả của bạn về hồi quy sườn 'bình thường' vẫn hoạt động ở chế độ kép sao? Chỉ cần làm rõ rằng tôi nghĩ rằng hồi quy sườn núi bình thường được coi là hoạt động trong nguyên hàm (nơi biểu diễn tính năng rõ ràng được thực hiện).
rnoodle

Câu trả lời:


5

Như bạn có thể nhận thấy khi viết ra các vấn đề tối ưu hóa, sự khác biệt duy nhất trong việc giảm thiểu là tiêu chuẩn mà Hilbert sử dụng để xử phạt. Nghĩa là, để định lượng giá trị 'lớn' của là gì cho mục đích xử phạt. Trong cài đặt RKHS, chúng tôi sử dụng sản phẩm bên trong RKHS, , trong khi hồi quy sườn núi bị phạt theo tiêu chuẩn Euclide.ααtKα

Một hệ quả lý thuyết thú vị là làm thế nào mỗi phương pháp hiệu ứng quang phổ của tái tạo hạt nhân . Theo lý thuyết RKHS, chúng ta có là xác định dương đối xứng. Theo định lý phổ, chúng ta có thể viết trong đó là ma trận đường chéo của giá trị riêng và là ma trận trực giao của các hàm riêng. Do đó, trong cài đặt RKHS, started Trong khi đó, trong cài đặt hồi quy Ridge, lưu ý rằng theo đối xứng, KKK=UtDUDU

(K+λnI)1Y=[Ut(D+λnI)U]1Y=Ut[D+λnI]1UY.
KtK=K2
(K2+λnI)1KY=[Ut(D2+λnI)U]1KY=Ut[D2+λnI]1UKY=Ut[D2+λnI]1DUY=Ut[D+λnD1]1UY.
Đặt phổ của là . Trong hồi quy RKHS, các giá trị riêng được ổn định bởi . Trong hồi quy Ridge, chúng ta có . Do đó, RKHS điều chỉnh đồng nhất các giá trị riêng trong khi Ridge thêm giá trị lớn hơn nếu tương ứng nhỏ hơn.Kν1,,νnνiνi+λnνiνi+λn/νiνi

Tùy thuộc vào sự lựa chọn hạt nhân, hai ước tính cho có thể gần hoặc xa nhau. Khoảng cách theo nghĩa định mức toán tử sẽ là Tuy nhiên, điều này vẫn bị giới hạn cho một choα

αRKHSαRidge2=ARKHSYARidgeY2[D+λnI]1[D+λnD1]1Y2maxi=1,,n{|(νi+λn)1(νi+λn/νi)1|}Y2maxi=1,,n{λn|1νi|(νi+λn)(νi2+λn)}Y2
Y, vì vậy hai công cụ ước tính của bạn không thể cách xa nhau một cách tùy tiện. Do đó, nếu hạt nhân của bạn gần với danh tính, thì hầu như sẽ có rất ít sự khác biệt trong các cách tiếp cận. Nếu hạt nhân của bạn rất khác nhau, hai cách tiếp cận vẫn có thể dẫn đến kết quả tương tự.

Trong thực tế, thật khó để nói dứt khoát nếu cái này tốt hơn cái kia cho một tình huống nhất định. Vì chúng tôi đang giảm thiểu liên quan đến lỗi bình phương khi biểu diễn dữ liệu theo hàm kernel, chúng tôi thực sự chọn một đường cong hồi quy tốt nhất từ ​​không gian hàm Hilbert tương ứng. Do đó, xử phạt đối với sản phẩm bên trong RKHS dường như là cách tự nhiên để tiến hành.


1
Bạn có một tài liệu tham khảo cho điều này?
rnoodle
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.