Tôi nghĩ rằng tôi biết những gì người nói đang nhận được. Cá nhân tôi không hoàn toàn đồng ý với cô ấy / anh ấy, và có rất nhiều người không. Nhưng công bằng mà nói, cũng có nhiều người làm :) Trước hết, lưu ý rằng việc chỉ định hàm hiệp phương sai (kernel) ngụ ý chỉ định phân phối trước các hàm. Chỉ bằng cách thay đổi hạt nhân, việc thực hiện Quy trình Gaussian thay đổi mạnh mẽ, từ các hàm rất trơn tru, khác biệt vô cùng, được tạo ra bởi hạt nhân bình phương Squared
với "spiky", các hàm không phân biệt tương ứng với một hạt nhân hàm mũ (hoặc hạt nhân mẹ có )ν= 1 / 2
Một cách khác để xem nó là viết giá trị trung bình dự đoán (giá trị trung bình của các dự đoán Quy trình Gaussian, thu được bằng cách điều chỉnh GP trên các điểm huấn luyện) trong một điểm kiểm tra , trong trường hợp đơn giản nhất của hàm số trung bình bằng 0:x*
y*= k* T( K+ σ2tôi)- 1y
Trong đó là vectơ hiệp phương sai giữa điểm kiểm tra và các điểm đào tạo , là ma trận hiệp phương sai của các điểm đào tạo, là thuật ngữ nhiễu (chỉ được đặt nếu bài giảng của bạn liên quan đến các dự đoán không có tiếng ồn, nghĩa là phép nội suy Quy trình Gaussian) và là vectơ quan sát trong tập huấn luyện. Như bạn có thể thấy, ngay cả khi giá trị trung bình của GP trước bằng 0, giá trị trung bình dự đoán hoàn toàn không bằng 0, và tùy thuộc vào hạt nhân và số lượng điểm đào tạo, nó có thể là một mô hình rất linh hoạt, có thể học cực kỳ mô hình phức tạp.x * x 1 ,..., x n Kσσ=0 y =( y 1 ,..., y n )k*x*x1, Lọ , xnKσσ= 0y =( y1, ... , yn)
Tổng quát hơn, đó là hạt nhân xác định các thuộc tính tổng quát của GP. Một số hạt nhân có tính chất gần đúng phổ quát , nghĩa là về nguyên tắc, chúng có khả năng xấp xỉ bất kỳ hàm liên tục nào trên một tập hợp nhỏ gọn, với bất kỳ dung sai tối đa được chỉ định trước nào, được cung cấp đủ điểm đào tạo.
Sau đó, tại sao bạn nên quan tâm tất cả về chức năng trung bình? Trước hết, một hàm trung bình đơn giản (một đa thức tuyến tính hoặc trực giao) làm cho mô hình dễ hiểu hơn nhiều và lợi thế này không được đánh giá thấp cho mô hình linh hoạt (do đó, phức tạp) như GP. Thứ hai, theo một cách nào đó, giá trị trung bình bằng không (hoặc, đối với giá trị, cũng là giá trị trung bình không đổi) loại GP hút theo dự đoán cách xa dữ liệu huấn luyện. Nhiều hạt nhân đứng yên (trừ hạt nhân định kỳ) sao cho choquận ( x i , x * ) → ∞ y * ≈ 0k ( xtôi- x*) → 0xa( xtôi, x*) → ∞. Sự hội tụ về 0 này có thể xảy ra nhanh chóng một cách đáng ngạc nhiên, đặc biệt là với hạt nhân bình phương Squared, và đặc biệt khi cần một độ dài tương quan ngắn để phù hợp với tập huấn luyện. Do đó, một GP có hàm trung bình bằng 0 sẽ luôn dự đoán ngay khi bạn rời khỏi tập huấn luyện.y*≈ 0
Bây giờ, điều này có thể có ý nghĩa trong ứng dụng của bạn: xét cho cùng, thường là một ý tưởng tồi khi sử dụng mô hình dựa trên dữ liệu để thực hiện dự đoán cách xa tập hợp các điểm dữ liệu được sử dụng để huấn luyện mô hình. Xem ở đây để biết nhiều ví dụ thú vị và vui vẻ về lý do tại sao điều này có thể là một ý tưởng tồi. Về mặt này, GP trung bình bằng 0, luôn hội tụ về 0 so với tập huấn luyện, sẽ an toàn hơn một mô hình (ví dụ như một mô hình đa thức trực giao đa biến bậc cao), sẽ vui vẻ bắn ra những dự đoán cực kỳ lớn ngay khi bạn thoát khỏi dữ liệu đào tạo.
Tuy nhiên, trong các trường hợp khác, bạn có thể muốn mô hình của mình có một hành vi tiệm cận nhất định, điều này không hội tụ đến một hằng số. Có thể xem xét vật lý cho bạn biết rằng với đủ lớn, mô hình của bạn phải trở thành tuyến tính. Trong trường hợp đó bạn muốn một hàm trung bình tuyến tính. Nói chung, khi các thuộc tính toàn cầu của mô hình được quan tâm cho ứng dụng của bạn, thì bạn phải chú ý đến việc lựa chọn hàm trung bình. Khi bạn chỉ quan tâm đến hành vi cục bộ (gần với điểm đào tạo) của mô hình của bạn, thì GP trung bình bằng 0 hoặc không đổi có thể là quá đủ.x*