Tại sao hàm trung bình trong Quá trình Gaussian không thú vị?


28

Tôi mới bắt đầu đọc về GP và tương tự như phân phối Gaussian thông thường, nó được đặc trưng bởi một hàm trung bình và hàm hiệp phương sai hoặc kernel. Tôi đã có mặt tại một buổi nói chuyện và diễn giả nói rằng hàm trung bình thường không thú vị và tất cả nỗ lực suy luận được dành cho việc ước tính hàm hiệp phương sai chính xác.

Ai đó có thể giải thích cho tôi tại sao nên như vậy không?

Câu trả lời:


33

Tôi nghĩ rằng tôi biết những gì người nói đang nhận được. Cá nhân tôi không hoàn toàn đồng ý với cô ấy / anh ấy, và có rất nhiều người không. Nhưng công bằng mà nói, cũng có nhiều người làm :) Trước hết, lưu ý rằng việc chỉ định hàm hiệp phương sai (kernel) ngụ ý chỉ định phân phối trước các hàm. Chỉ bằng cách thay đổi hạt nhân, việc thực hiện Quy trình Gaussian thay đổi mạnh mẽ, từ các hàm rất trơn tru, khác biệt vô cùng, được tạo ra bởi hạt nhân bình phương Squared

nhập mô tả hình ảnh ở đây

với "spiky", các hàm không phân biệt tương ứng với một hạt nhân hàm mũ (hoặc hạt nhân mẹ có )ν=1/2

nhập mô tả hình ảnh ở đây

Một cách khác để xem nó là viết giá trị trung bình dự đoán (giá trị trung bình của các dự đoán Quy trình Gaussian, thu được bằng cách điều chỉnh GP trên các điểm huấn luyện) trong một điểm kiểm tra , trong trường hợp đơn giản nhất của hàm số trung bình bằng 0:x

y=kT(K+σ2I)1y

Trong đó là vectơ hiệp phương sai giữa điểm kiểm tra và các điểm đào tạo , là ma trận hiệp phương sai của các điểm đào tạo, là thuật ngữ nhiễu (chỉ được đặt nếu bài giảng của bạn liên quan đến các dự đoán không có tiếng ồn, nghĩa là phép nội suy Quy trình Gaussian) và là vectơ quan sát trong tập huấn luyện. Như bạn có thể thấy, ngay cả khi giá trị trung bình của GP trước bằng 0, giá trị trung bình dự đoán hoàn toàn không bằng 0, và tùy thuộc vào hạt nhân và số lượng điểm đào tạo, nó có thể là một mô hình rất linh hoạt, có thể học cực kỳ mô hình phức tạp.x * x 1 ,..., x n Kσσ=0 y =( y 1 ,..., y n )kxx1,,xnKσσ=0y=(y1,,yn)

Tổng quát hơn, đó là hạt nhân xác định các thuộc tính tổng quát của GP. Một số hạt nhân có tính chất gần đúng phổ quát , nghĩa là về nguyên tắc, chúng có khả năng xấp xỉ bất kỳ hàm liên tục nào trên một tập hợp nhỏ gọn, với bất kỳ dung sai tối đa được chỉ định trước nào, được cung cấp đủ điểm đào tạo.

Sau đó, tại sao bạn nên quan tâm tất cả về chức năng trung bình? Trước hết, một hàm trung bình đơn giản (một đa thức tuyến tính hoặc trực giao) làm cho mô hình dễ hiểu hơn nhiều và lợi thế này không được đánh giá thấp cho mô hình linh hoạt (do đó, phức tạp) như GP. Thứ hai, theo một cách nào đó, giá trị trung bình bằng không (hoặc, đối với giá trị, cũng là giá trị trung bình không đổi) loại GP hút theo dự đoán cách xa dữ liệu huấn luyện. Nhiều hạt nhân đứng yên (trừ hạt nhân định kỳ) sao cho choquận ( x i , x * ) y *0k(xix)0dist(xi,x). Sự hội tụ về 0 này có thể xảy ra nhanh chóng một cách đáng ngạc nhiên, đặc biệt là với hạt nhân bình phương Squared, và đặc biệt khi cần một độ dài tương quan ngắn để phù hợp với tập huấn luyện. Do đó, một GP có hàm trung bình bằng 0 sẽ luôn dự đoán ngay khi bạn rời khỏi tập huấn luyện.y0

Bây giờ, điều này có thể có ý nghĩa trong ứng dụng của bạn: xét cho cùng, thường là một ý tưởng tồi khi sử dụng mô hình dựa trên dữ liệu để thực hiện dự đoán cách xa tập hợp các điểm dữ liệu được sử dụng để huấn luyện mô hình. Xem ở đây để biết nhiều ví dụ thú vị và vui vẻ về lý do tại sao điều này có thể là một ý tưởng tồi. Về mặt này, GP trung bình bằng 0, luôn hội tụ về 0 so với tập huấn luyện, sẽ an toàn hơn một mô hình (ví dụ như một mô hình đa thức trực giao đa biến bậc cao), sẽ vui vẻ bắn ra những dự đoán cực kỳ lớn ngay khi bạn thoát khỏi dữ liệu đào tạo.

Tuy nhiên, trong các trường hợp khác, bạn có thể muốn mô hình của mình có một hành vi tiệm cận nhất định, điều này không hội tụ đến một hằng số. Có thể xem xét vật lý cho bạn biết rằng với đủ lớn, mô hình của bạn phải trở thành tuyến tính. Trong trường hợp đó bạn muốn một hàm trung bình tuyến tính. Nói chung, khi các thuộc tính toàn cầu của mô hình được quan tâm cho ứng dụng của bạn, thì bạn phải chú ý đến việc lựa chọn hàm trung bình. Khi bạn chỉ quan tâm đến hành vi cục bộ (gần với điểm đào tạo) của mô hình của bạn, thì GP trung bình bằng 0 hoặc không đổi có thể là quá đủ.x


Delta, bạn có biết chức năng tốt là gì không?
Một ông già ở biển.

1
@Anoldmaninthesea nó phụ thuộc rất nhiều vào ứng dụng. Như tôi đã giải thích, trừ khi bạn cần một mô hình có thể hiểu được hoặc bạn quan tâm đến các dự đoán "ở xa" từ tập huấn luyện của mình, có lẽ tốt hơn là tập trung nỗ lực của bạn vào việc cải thiện chức năng hiệp phương sai, thay vì hàm trung bình
DeltaIV

1
Delta, trong trường hợp của tôi, tôi cần cố gắng đưa ra một số dự đoán có thể khác xa với dữ liệu được quan sát ... Tôi đã hỏi câu hỏi này ở đây stats.stackexchange.com/questions/375468/ trộm
Một ông già trong biển.

6

Chúng ta không thể nói thay mặt cho người đang giảng bài; có lẽ người nói đã có một ý tưởng khác trong đầu khi người nói đưa ra tuyên bố đó. Tuy nhiên, trong trường hợp bạn đang cố gắng xây dựng dự đoán sau từ GP, hàm trung bình không đổi có một giải pháp dạng đóng có thể được tính toán chính xác. Tuy nhiên, trong trường hợp hàm trung bình tổng quát hơn, bạn phải sử dụng các phương pháp gần đúng, ví dụ mô phỏng.

Ngoài ra, hàm hiệp phương sai kiểm soát độ lệch (và vị trí) của hàm trung bình xảy ra nhanh như thế nào, do đó, thông thường hàm hàm hiệp phương sai linh hoạt / cứng nhắc hơn có thể "đủ tốt" để xấp xỉ hàm trung bình trang trí công phu hơn - một lần nữa cấp truy cập vào các thuộc tính tiện lợi của một hàm trung bình không đổi.


Cảm ơn lời giải thích đó. Vâng, tôi không thể hỏi câu hỏi của mình và tự hỏi liệu có lý do chính cho việc này không.
Luca

6

Tôi sẽ cho bạn một lời giải thích mà có lẽ người nói không có ý đó. Trong một số ứng dụng có nghĩa là luôn nhàm chán. Chẳng hạn, giả sử chúng tôi dự báo doanh số bán hàng với mô hình tự động . Giá trị trung bình dài hạn rõ ràng là . Có thú vị không E [ y t ] μ = cyt=c+γyt1+etE[yt]μ=c1γ

Nó phụ thuộc vào mục tiêu của bạn. Nếu bạn sau khi định giá cửa hàng, thì nó sẽ cho bạn biết rằng bạn phải tăng hoặc giảm để tăng giá trị của cửa hàng vì giá trị được đưa ra bởi: trong đó là hệ số chiết khấu. Vì vậy, ý nghĩa rõ ràng là thú vị.γ V = μcγ r

V= =μr
r

Nếu bạn quan tâm đến thanh khoản, tức là bạn có đủ tiền mặt để trang trải chi phí trong vài tháng tới, thì điều đó có nghĩa là gần như không liên quan. Bạn đang xem dự báo tiền mặt của tháng tới: Vì vậy, doanh số tháng này là một yếu tố hiện nay.y 0

y1= =c+γy0
y0

6

Một lý do rất tốt là hàm trung bình có thể không sống trong không gian của các hàm bạn muốn mô hình hóa. mỗi điểm đầu vào, , có thể có trung bình sau tương ứng, . Tuy nhiên, những điểm trung bình sau này là kỳ vọng trước khi bạn thấy bất kỳ dữ liệu nào khác. Vì vậy, có nhiều trường hợp không có tình huống mà dữ liệu trong tương lai được quan sát sẽ tạo ra chức năng trung bình đó. μ ( x i )xtôiμ(xtôi)

Ví dụ đơn giản: Hãy tưởng tượng khớp một hàm sin với độ lệch chưa biết nhưng chu kỳ và biên độ đã biết. Giá trị trung bình trước bằng 0 đối với tất cả nhưng một dòng không đổi không tồn tại trong không gian của các hàm sin mà chúng ta đã mô tả. Hàm hiệp phương sai cung cấp cho chúng ta thông tin cấu trúc bổ sung.x


0

Nói một cách đơn giản, hàm trung bình chi phối hàm hiệp phương sai cho các đầu vào 'ở xa' khỏi các quan sát.
Đó là một cách để đưa kiến ​​thức trước đây của bạn vào động lực vĩ ​​mô của hệ thống.


1
Tôi không hiểu câu trả lời của bạn. Bạn có thể làm rõ?
Michael R. Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.