Tôi đang sử dụng quy trình Gaussian (GP) để hồi quy.
Trong vấn đề của tôi, nó khá phổ biến đối với hai hoặc nhiều điểm dữ liệu gần nhau, tương đối với độ dài quy mô của vấn đề. Ngoài ra, các quan sát có thể cực kỳ ồn ào. Để tăng tốc tính toán và cải thiện độ chính xác của phép đo , việc hợp nhất / tích hợp các cụm điểm gần nhau là điều tự nhiên, miễn là tôi quan tâm đến các dự đoán trên quy mô dài hơn.
Tôi tự hỏi một cách nhanh chóng nhưng bán nguyên tắc để làm điều này là gì.
Nếu hai điểm dữ liệu trùng nhau hoàn hảo, và nhiễu quan sát (nghĩa là khả năng) là Gaussian, có thể là dị vòng nhưng được biết đến , cách tiến hành tự nhiên dường như hợp nhất chúng trong một điểm dữ liệu duy nhất với:
, với .
Giá trị quan sát là giá trị trung bình của các giá trị quan sát có trọng số chính xác tương đối của chúng: . y(1),y(2) ˉ y =σ 2 y ( → x ( 2 ) )
Tiếng ồn liên quan đến quan sát bằng: .
Tuy nhiên, làm thế nào để hợp nhất hai điểm gần nhau nhưng không trùng nhau?
Tôi nghĩ rằng vẫn phải là trung bình có trọng số của hai vị trí, một lần nữa sử dụng độ tin cậy tương đối. Cơ sở lý luận là một đối số trung tâm (nghĩa là nghĩ về một quan sát rất chính xác như một chồng các quan sát ít chính xác hơn).
Cho cùng công thức như trên.
Đối với nhiễu liên quan đến quan sát, tôi tự hỏi liệu ngoài công thức trên tôi có nên thêm thuật ngữ hiệu chỉnh cho nhiễu không vì tôi đang di chuyển điểm dữ liệu xung quanh. Về cơ bản, tôi sẽ nhận được sự gia tăng độ không chắc chắn có liên quan đến và (tương ứng, phương sai tín hiệu và thang độ dài của hàm hiệp phương sai). Tôi không chắc chắn về hình thức của thuật ngữ này, nhưng tôi có một số ý tưởng dự kiến về cách tính toán nó với hàm hiệp phương sai. ℓ 2
Trước khi tiếp tục, tôi tự hỏi liệu đã có một cái gì đó ở ngoài đó chưa; và nếu đây có vẻ là một cách tiến hành hợp lý, hoặc có những phương pháp nhanh hơn tốt hơn .
Điều gần nhất tôi có thể tìm thấy trong tài liệu này là bài báo này: E. Snelson và Z. Ghahramani, Các quy trình Gaussian thưa thớt sử dụng đầu vào giả , NIPS '05; nhưng phương pháp của họ là (tương đối) liên quan, đòi hỏi tối ưu hóa để tìm đầu vào giả.