Quá trình Gaussian và Tương quan


8

Tôi đã tự hỏi tại sao mọi người sử dụng các quy trình Gaussian (GP) để mô hình hóa một hàm chưa biết (đôi khi xác định). Ví dụ, hãy xem xét một hàm chưa biết . Chúng tôi có ba quan sát độc lập từ chức năng này: y=f(x)

(x1,y1);(x2,y2);(x3,y3)

Để tìm hiểu chức năng cơ bản, GP là một kỹ thuật phi tham số phổ biến, coi tất cả các đầu ra là một phân phối chuẩn đa biến chung. Giả sử hàm hiệp phương sai cụ thể và giả sử: GP có dạng sau K(xi,yi)

y=(y1,y2,y3);X=(x1,x2,x3)
y|XN(0,[K(x1,x1)K(x1,x2)K(x1,x3)K(x1,x2)K(x2,x2)K(x2,x3)K(x1,x3)K(x2,x3)K(x3,x3) ])

Các quan sát là độc lập. Điểm chung duy nhất của họ là chúng đến từ cùng một chức năng cơ bản. (xi,yi)

Câu hỏi chính của tôi là: Tại sao chúng ta buộc và phải tương quan với nhau? Đó không phải là mô hình sai sao? Tại sao chúng ta có thể giả định rằng chúng ta có thể nhận được kết quả dự đoán tốt cho bất kỳ .(xi,yj)(xl,ym)y|x

Tôi không chắc chắn tôi đang thiếu khía cạnh nào trong vấn đề này và tại sao lại buộc phải tương quan.

Câu trả lời:


10

Chọn một hạt nhân tương đương với việc chọn một lớp các hàm mà bạn sẽ chọn mô hình của mình. Nếu việc chọn kernel cảm thấy như một thứ lớn mã hóa rất nhiều giả định, thì đó là vì nó là vậy! Những người mới tham gia vào lĩnh vực này thường không nghĩ nhiều về việc lựa chọn kernel và chỉ đi với kernel Gaussian ngay cả khi nó không phù hợp.

Làm thế nào để chúng ta quyết định liệu một hạt nhân có vẻ phù hợp hay không? Chúng ta cần suy nghĩ về các chức năng trong không gian chức năng tương ứng trông như thế nào. Hạt nhân Gaussian tương ứng với các hàm rất trơn tru và khi hạt nhân đó được chọn, giả định được thực hiện rằng các hàm trơn sẽ cung cấp một mô hình khá. Điều đó không phải luôn luôn như vậy, và có rất nhiều hạt nhân khác mã hóa các giả định khác nhau về những gì bạn muốn lớp chức năng của bạn trông như thế nào. Có hạt nhân để mô hình hóa các chức năng định kỳ, hạt nhân không cố định, và một loạt các thứ khác. Ví dụ, giả định độ mịn được mã hóa bởi nhân Gaussian không phù hợp để phân loại văn bản, như Charles Martin đã trình bày trong blog của mình ở đây .

Chúng ta hãy xem các ví dụ về các chức năng từ các không gian tương ứng với hai hạt nhân khác nhau. Đầu tiên sẽ là hạt nhân Gaussian và hạt nhân khác sẽ là hạt nhân chuyển động Brown . Một lần rút ngẫu nhiên từ mỗi không gian trông như sau:k1(x,x)=exp(γ|xx|2)k2(x,x)=min{x,x}

k1

k2

Rõ ràng những điều này đại diện cho những giả định rất khác nhau về một mô hình tốt là gì.

Ngoài ra, lưu ý rằng chúng tôi không nhất thiết phải ép buộc tương quan. Lấy hàm trung bình của bạn là và hàm hiệp phương sai của bạn là . Bây giờ mô hình của chúng tôi là tức là chúng ta vừa phục hồi hồi quy tuyến tính.μ(x)=xTβk(xi,xj)=σ21(i=j)

Y|XN(Xβ,σ2I)

Nhưng nhìn chung mối tương quan giữa các điểm lân cận là một mô hình cực kỳ hữu ích và mạnh mẽ. Hãy tưởng tượng rằng bạn sở hữu một công ty khoan dầu và bạn muốn tìm trữ lượng dầu mới. Nó rất tốn kém để khoan vì vậy bạn muốn khoan càng nhiều lần càng tốt. Giả sử chúng ta đã khoann=5lỗ và chúng tôi muốn biết lỗ tiếp theo của chúng tôi nên ở đâu. Chúng ta có thể tưởng tượng rằng lượng dầu trong vỏ trái đất rất khác nhau, vì vậy chúng ta sẽ mô hình hóa lượng dầu trong toàn bộ khu vực mà chúng ta đang xem xét khoan bằng quy trình Gaussian bằng hạt nhân Gaussian, đó là cách chúng ta nói rằng những nơi thực sự gần sẽ có lượng dầu thực sự tương tự nhau, và những nơi thực sự xa nhau thực sự độc lập. Hạt nhân Gaussian cũng đứng yên, điều này là hợp lý trong trường hợp này: Stationarity nói rằng mối tương quan giữa hai điểm chỉ phụ thuộc vào khoảng cách giữa chúng. Sau đó chúng ta có thể sử dụng mô hình của mình để dự đoán nơi chúng ta nên khoan tiếp theo. Chúng tôi vừa thực hiện một bước duy nhất trong tối ưu hóa Bayesvà tôi thấy đây là một cách rất tốt để đánh giá trực giác tại sao chúng ta thích khía cạnh tương quan của bác sĩ gia đình.

Một nguồn tốt khác là Jones et al. (1998) . Họ không gọi mô hình của họ là một quá trình Gaussian, nhưng nó là. Bài viết này mang lại cảm giác rất tốt về lý do tại sao chúng tôi muốn sử dụng mối tương quan giữa các điểm gần đó ngay cả trong một thiết lập xác định.

Điểm cuối cùng: Tôi không nghĩ có ai từng cho rằng chúng ta có thể có kết quả dự đoán tốt. Đó là điều chúng tôi muốn xác minh, chẳng hạn như bằng xác thực chéo.

Cập nhật

Tôi muốn làm rõ bản chất của mối tương quan mà chúng ta đang mô hình hóa. Trước tiên hãy xem xét hồi quy tuyến tính để . Theo mô hình này, chúng ta có cho . Nhưng chúng ta cũng biết rằng nếu thì Y|XN(Xβ,σ2I)YiYj|Xij||x1x2||2<ε

(E(Y1|X)E(Y2|X))2=(x1Tβx2Tβ)2=x1x2,β2||x1x2||2||β||2<ε||β||2.

Vì vậy, điều này cho chúng ta biết rằng nếu đầu vào và rất gần nhau thì phương tiện của và rất gần nhau. Điều này khác với tương quan vì chúng vẫn độc lập, bằng chứng là cách x1x2Y1Y2

P(Y1>E(Y1|X) | Y2>E(Y2|X))=P(Y1>E(Y1|X)).

Nếu chúng tương quan với nhau thì việc biết rằng vượt quá mức trung bình của nó sẽ cho chúng ta biết điều gì đó về .Y2Y1

Vì vậy, bây giờ chúng ta hãy giữ nhưng chúng ta sẽ thêm tương quan bằng . Chúng tôi vẫn có kết quả tương tự rằng là nhỏ, nhưng giờ chúng tôi đã đạt được sự thật rằng nếu lớn hơn giá trị trung bình của nó, thì có khả năng cũng sẽ như vậy. Đây là mối tương quan mà chúng tôi đã thêm.μ(x)=xTβCov(Yi,Yj)=k(xi,xj)||x1x2||2<ε(E(Y1|X)E(Y2|X))2Y1Y2


Cảm ơn bình luận của bạn. Giải thích của bạn rất hữu ích. Tuy nhiên, câu hỏi của tôi chủ yếu tập trung vào ý tưởng rằng mối tương quan giữa các bộ dữ liệu và không tồn tại trong thực tế. Sau đó, GP buộc một mối tương quan trong phân phối chuẩn nhiều biến số (trừ trường hợp ). Đây có phải là mối tương quan tương tự như của các biến ngẫu nhiên? hoặc được định nghĩa khác nhau vì chúng ta đang mô hình hóa các mối quan hệ chức năng? Là mối tương quan này có thể giải thích? và làm thế nào nó giúp? (xi,xj)(xl,xm)K=1(i=j)
Wis

Ngoài ra chúng ta có thể nói không độc lập với vì chúng đến từ cùng một hàm cơ bản và cả hai đều phụ thuộc vào ? Đây là lý do tại sao nên có mối tương quan. Tôi thực sự đánh giá cao sự giúp đỡ của bạn về những câu hỏi nàyyiyjx
Wis

@ kon7 Tôi đã thêm một bản cập nhật về mối tương quan mà hy vọng sẽ giúp.
JLD

Cảm ơn bạn rất nhiều, câu trả lời của bạn là tuyệt vời. Tôi đã chấp nhận câu trả lời. Tôi vẫn còn một cuộc điều tra nhỏ. Loại thông tin chúng tôi đã thêm, chúng tôi có thể gọi nó là tương quan, theo ý nghĩa thống kê điển hình của tương quan? Liệu nó có ý nghĩa theo nghĩa tương quan chức năng bởi vì ở đây chúng ta đang xem xét các tuples chứ không phải là các biến ngẫu nhiên (xi,yi)ys
Wis

@ kon7 này là hoàn toàn theo nghĩa tiêu chuẩn của sự tương quan bởi vì chúng tôi đang làm việc với một ma trận hiệp phương sai . là cách chúng ta tính toán điều này nhưng có tính xác định trong công thức chuẩn và hiệp phương sai duy nhất nằm giữa . KXxiYi
JLD

0

Nếu và tương tự nhau, nghĩa là lớn, thì và cũng có thể giống nhau. Do đó, sự gần gũi trong không gian đầu vào (của hàm được xấp xỉ) dẫn đến sự gần gũi trong không gian đầu ra. Đây là giả định hợp lý cho nhiều ứng dụng. Ví dụ, nếu hai học sinh có điểm trung bình phổ thông tương tự, họ cũng sẽ có kết quả tương tự trong kỳ thi SAT.xixlk(xi,xl)yiyl

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.