Sự khác biệt giữa thực hiện hồi quy tuyến tính với Hàm cơ sở xuyên tâm Gaussian (RBF) và thực hiện hồi quy tuyến tính với hạt nhân Gaussian là gì?
Sự khác biệt giữa thực hiện hồi quy tuyến tính với Hàm cơ sở xuyên tâm Gaussian (RBF) và thực hiện hồi quy tuyến tính với hạt nhân Gaussian là gì?
Câu trả lời:
Sự khác biệt thực sự duy nhất là trong chính quy được áp dụng. Mạng RBF thông thường thường sử dụng hình phạt dựa trên định mức bình phương của các trọng số. Đối với phiên bản kernel, hình phạt thường dựa trên chỉ tiêu bình phương về trọng số của mô hình tuyến tính được xây dựng ngầm trong không gian tính năng do kernel tạo ra. Sự khác biệt thực tế quan trọng mà điều này tạo ra là hình phạt cho mạng RBF phụ thuộc vào các trung tâm của mạng RBF (và do đó dựa trên mẫu dữ liệu được sử dụng) trong khi đối với nhân RBF, không gian tính năng cảm ứng là như nhau bất kể mẫu của dữ liệu, vì vậy hình phạt là một hình phạt đối với chức năng của mô hình, chứ không phải là tham số hóa của nó .
Nói cách khác, đối với cả hai mô hình, chúng tôi có
Đối với cách tiếp cận mạng RBF, tiêu chí đào tạo là
Đối với phương thức nhân RBF, chúng ta có và . Điều này có nghĩa là một hình phạt định mức bình phương trên các trọng số của mô hình trong không gian tính năng cảm ứng, có thể được viết theo các tham số kép, như→ w = ∑ ℓ i = 1 α i ϕ ( → x i ) → w → α
trong đó là kết hợp của các đánh giá cặp khôn ngoan của hạt nhân cho tất cả các mẫu đào tạo. Tiêu chí đào tạo là
.
Sự khác biệt duy nhất giữa hai mô hình là trong thuật ngữ chính quy.
Ưu điểm lý thuyết chính của phương pháp nhân là nó cho phép bạn diễn giải một mô hình phi tuyến tính như một mô hình tuyến tính theo một phép biến đổi phi tuyến tính cố định không phụ thuộc vào mẫu dữ liệu. Do đó, bất kỳ lý thuyết học thống kê nào tồn tại cho các mô hình tuyến tính sẽ tự động chuyển sang phiên bản phi tuyến tính. Tuy nhiên, tất cả điều này bị phá vỡ ngay khi bạn thử và điều chỉnh các tham số kernel, tại thời điểm đó chúng ta quay lại gần như cùng một điểm về mặt lý thuyết như chúng ta đã làm với các mạng thần kinh RBF (và MLP). Vì vậy, lợi thế về mặt lý thuyết có lẽ không lớn như chúng ta mong muốn.
Có khả năng tạo ra bất kỳ sự khác biệt thực sự về hiệu suất? Có lẽ không nhiều. Các định lý "không ăn trưa miễn phí" cho thấy rằng không có ưu thế vượt trội của bất kỳ thuật toán nào so với tất cả các thuật toán khác, và sự khác biệt trong chính quy là khá tinh tế, vì vậy, nếu nghi ngờ, hãy thử cả hai và chọn phương án tốt nhất theo ví dụ xác thực chéo.