Chọn một hạt nhân tương đương với việc chọn một lớp các hàm mà bạn sẽ chọn mô hình của mình. Nếu việc chọn kernel cảm thấy như một thứ lớn mã hóa rất nhiều giả định, thì đó là vì nó là vậy! Những người mới tham gia vào lĩnh vực này thường không nghĩ nhiều về việc lựa chọn kernel và chỉ đi với kernel Gaussian ngay cả khi nó không phù hợp.
Làm thế nào để chúng ta quyết định liệu một hạt nhân có vẻ phù hợp hay không? Chúng ta cần suy nghĩ về các chức năng trong không gian chức năng tương ứng trông như thế nào. Hạt nhân Gaussian tương ứng với các hàm rất trơn tru và khi hạt nhân đó được chọn, giả định được thực hiện rằng các hàm trơn sẽ cung cấp một mô hình khá. Điều đó không phải luôn luôn như vậy, và có rất nhiều hạt nhân khác mã hóa các giả định khác nhau về những gì bạn muốn lớp chức năng của bạn trông như thế nào. Có hạt nhân để mô hình hóa các chức năng định kỳ, hạt nhân không cố định, và một loạt các thứ khác. Ví dụ, giả định độ mịn được mã hóa bởi nhân Gaussian không phù hợp để phân loại văn bản, như Charles Martin đã trình bày trong blog của mình ở đây .
Chúng ta hãy xem các ví dụ về các chức năng từ các không gian tương ứng với hai hạt nhân khác nhau. Đầu tiên sẽ là hạt nhân Gaussian và hạt nhân khác sẽ là hạt nhân chuyển động Brown . Một lần rút ngẫu nhiên từ mỗi không gian trông như sau:k1(x,x′)=exp(−γ|x−x′|2)k2(x,x′)=min{x,x′}
Rõ ràng những điều này đại diện cho những giả định rất khác nhau về một mô hình tốt là gì.
Ngoài ra, lưu ý rằng chúng tôi không nhất thiết phải ép buộc tương quan. Lấy hàm trung bình của bạn là và hàm hiệp phương sai của bạn là . Bây giờ mô hình của chúng tôi là
tức là chúng ta vừa phục hồi hồi quy tuyến tính.μ(x)=xTβk(xi,xj)=σ21(i=j)
Y|X∼N(Xβ,σ2I)
Nhưng nhìn chung mối tương quan giữa các điểm lân cận là một mô hình cực kỳ hữu ích và mạnh mẽ. Hãy tưởng tượng rằng bạn sở hữu một công ty khoan dầu và bạn muốn tìm trữ lượng dầu mới. Nó rất tốn kém để khoan vì vậy bạn muốn khoan càng nhiều lần càng tốt. Giả sử chúng ta đã khoann=5lỗ và chúng tôi muốn biết lỗ tiếp theo của chúng tôi nên ở đâu. Chúng ta có thể tưởng tượng rằng lượng dầu trong vỏ trái đất rất khác nhau, vì vậy chúng ta sẽ mô hình hóa lượng dầu trong toàn bộ khu vực mà chúng ta đang xem xét khoan bằng quy trình Gaussian bằng hạt nhân Gaussian, đó là cách chúng ta nói rằng những nơi thực sự gần sẽ có lượng dầu thực sự tương tự nhau, và những nơi thực sự xa nhau thực sự độc lập. Hạt nhân Gaussian cũng đứng yên, điều này là hợp lý trong trường hợp này: Stationarity nói rằng mối tương quan giữa hai điểm chỉ phụ thuộc vào khoảng cách giữa chúng. Sau đó chúng ta có thể sử dụng mô hình của mình để dự đoán nơi chúng ta nên khoan tiếp theo. Chúng tôi vừa thực hiện một bước duy nhất trong tối ưu hóa Bayesvà tôi thấy đây là một cách rất tốt để đánh giá trực giác tại sao chúng ta thích khía cạnh tương quan của bác sĩ gia đình.
Một nguồn tốt khác là Jones et al. (1998) . Họ không gọi mô hình của họ là một quá trình Gaussian, nhưng nó là. Bài viết này mang lại cảm giác rất tốt về lý do tại sao chúng tôi muốn sử dụng mối tương quan giữa các điểm gần đó ngay cả trong một thiết lập xác định.
Điểm cuối cùng: Tôi không nghĩ có ai từng cho rằng chúng ta có thể có kết quả dự đoán tốt. Đó là điều chúng tôi muốn xác minh, chẳng hạn như bằng xác thực chéo.
Cập nhật
Tôi muốn làm rõ bản chất của mối tương quan mà chúng ta đang mô hình hóa. Trước tiên hãy xem xét hồi quy tuyến tính để . Theo mô hình này, chúng ta có cho . Nhưng chúng ta cũng biết rằng nếu thì
Y|X∼N(Xβ,σ2I)Yi⊥Yj|Xi≠j||x1−x2||2<ε
(E(Y1|X)−E(Y2|X))2=(xT1β−xT2β)2=⟨x1−x2,β⟩2≤||x1−x2||2||β||2<ε||β||2.
Vì vậy, điều này cho chúng ta biết rằng nếu đầu vào và rất gần nhau thì phương tiện của và rất gần nhau. Điều này khác với tương quan vì chúng vẫn độc lập, bằng chứng là cách
x1x2Y1Y2
P(Y1>E(Y1|X) | Y2>E(Y2|X))=P(Y1>E(Y1|X)).
Nếu chúng tương quan với nhau thì việc biết rằng vượt quá mức trung bình của nó sẽ cho chúng ta biết điều gì đó về .Y2Y1
Vì vậy, bây giờ chúng ta hãy giữ nhưng chúng ta sẽ thêm tương quan bằng . Chúng tôi vẫn có kết quả tương tự rằng là nhỏ, nhưng giờ chúng tôi đã đạt được sự thật rằng nếu lớn hơn giá trị trung bình của nó, thì có khả năng cũng sẽ như vậy. Đây là mối tương quan mà chúng tôi đã thêm.μ(x)=xTβCov(Yi,Yj)=k(xi,xj)||x1−x2||2<ε⟹(E(Y1|X)−E(Y2|X))2Y1Y2