Quan sát hợp nhất trong quá trình Gaussian


11

Tôi đang sử dụng quy trình Gaussian (GP) để hồi quy.

Trong vấn đề của tôi, nó khá phổ biến đối với hai hoặc nhiều điểm dữ liệu gần nhau, tương đối với độ dài quy mô của vấn đề. Ngoài ra, các quan sát có thể cực kỳ ồn ào. Để tăng tốc tính toán và cải thiện độ chính xác của phép đo , việc hợp nhất / tích hợp các cụm điểm gần nhau là điều tự nhiên, miễn là tôi quan tâm đến các dự đoán trên quy mô dài hơn.x(1),x(2),

Tôi tự hỏi một cách nhanh chóng nhưng bán nguyên tắc để làm điều này là gì.

Nếu hai điểm dữ liệu trùng nhau hoàn hảo, và nhiễu quan sát (nghĩa là khả năng) là Gaussian, có thể là dị vòng nhưng được biết đến , cách tiến hành tự nhiên dường như hợp nhất chúng trong một điểm dữ liệu duy nhất với:x(1)=x(2)

  • x¯x(k) , với .k=1,2

  • Giá trị quan sát là giá trị trung bình của các giá trị quan sát có trọng số chính xác tương đối của chúng: . y(1),y(2) ˉ y =σ 2 y (x ( 2 ) )y¯y(1),y(2)y¯=σy2(x(2))σy2(x(1))+σy2(x(2))y(1)+σy2(x(1))σy2(x(1))+σy2(x(2))y(2)

  • Tiếng ồn liên quan đến quan sát bằng: .σy2(x¯)=σy2(x(1))σy2(x(2))σy2(x(1))+σy2(x(2))

Tuy nhiên, làm thế nào để hợp nhất hai điểm gần nhau nhưng không trùng nhau?

  • Tôi nghĩ rằng x¯ vẫn phải là trung bình có trọng số của hai vị trí, một lần nữa sử dụng độ tin cậy tương đối. Cơ sở lý luận là một đối số trung tâm (nghĩa là nghĩ về một quan sát rất chính xác như một chồng các quan sát ít chính xác hơn).

  • Cho y¯ cùng công thức như trên.

  • Đối với nhiễu liên quan đến quan sát, tôi tự hỏi liệu ngoài công thức trên tôi có nên thêm thuật ngữ hiệu chỉnh cho nhiễu không vì tôi đang di chuyển điểm dữ liệu xung quanh. Về cơ bản, tôi sẽ nhận được sự gia tăng độ không chắc chắn có liên quan đến và (tương ứng, phương sai tín hiệu và thang độ dài của hàm hiệp phương sai). Tôi không chắc chắn về hình thức của thuật ngữ này, nhưng tôi có một số ý tưởng dự kiến ​​về cách tính toán nó với hàm hiệp phương sai.2σf22

Trước khi tiếp tục, tôi tự hỏi liệu đã có một cái gì đó ở ngoài đó chưa; và nếu đây có vẻ là một cách tiến hành hợp lý, hoặc có những phương pháp nhanh hơn tốt hơn .

Điều gần nhất tôi có thể tìm thấy trong tài liệu này là bài báo này: E. Snelson và Z. Ghahramani, Các quy trình Gaussian thưa thớt sử dụng đầu vào giả , NIPS '05; nhưng phương pháp của họ là (tương đối) liên quan, đòi hỏi tối ưu hóa để tìm đầu vào giả.


1
Bằng cách này, tôi đánh giá cao rằng tôi có thể sử dụng suy luận gần đúng hoặc một số phương pháp quy mô lớn, nhưng đây là một điểm khác.
lacerbi

Câu trả lời:


4

Câu hỏi tuyệt vời và những gì bạn đang đề nghị âm thanh hợp lý. Tuy nhiên cá nhân tôi sẽ tiến hành khác nhau để có hiệu quả. Như bạn đã nói, hai điểm gần nhau cung cấp ít thông tin bổ sung và do đó mức độ tự do hiệu quả của mô hình ít hơn số lượng điểm dữ liệu quan sát được. Trong trường hợp này nó có thể là giá trị sử dụng phương pháp Nystroms được mô tả tốt trong GPML (chương về xấp xỉ thưa thớt có thể được nhìn thấy http://www.gaussianprocess.org/gpml/ ). Phương pháp này rất dễ thực hiện và gần đây đã được chứng minh là có độ chính xác cao bởi Rudi et al. ( http://arxiv.org/abs/1507.04717 )


Cảm ơn, phương pháp của Nystrom có ​​vẻ là một cách tiếp cận thú vị, tôi sẽ xem xét nó. Tuy nhiên, trong bài đăng đầu tiên của tôi, tôi đã quên đề cập rằng nhiễu trong các quan sát có thể rất cao (có thể lớn hơn tín hiệu), do đó, việc tính trung bình các điểm gần đó sẽ cung cấp thêm thông tin.
lacerbi

1
Vâng, đó thực sự là một lý do để sử dụng phương pháp Nystroms. Nhiễu cao làm giảm mức độ tự do hiệu quả, do đó, nếu chỉ có m eigenvalues ​​đầu tiên giữ tín hiệu và phần còn lại chỉ đơn giản là nhiễu thì phương pháp Nystroms sẽ giảm tất cả những giá trị nhỏ hơn m đầu tiên. Tôi nghĩ rằng nó sẽ phù hợp với hóa đơn cho những gì bạn đang tìm kiếm. May mắn nhất!
j__

Phương pháp Nystrom là những gì tôi muốn đề xuất (+1). Đơn giản chỉ cần hợp nhất các điểm thành một có thể gặp vấn đề với việc ước tính khả năng cận biên của mô hình vì hai điểm dữ liệu chính hãng không có khả năng có cùng hiệu quả như một điểm duy nhất. Lời khuyên của tôi là giữ hai điểm riêng biệt, nhưng tìm cách làm cho việc tính toán ít tốn kém hơn, điều mà Nystrom emthod cần đạt được,
Dikran Marsupial

Những loại vấn đề? Nếu bạn xem xét trường hợp hai điểm chồng chéo với nhiễu Gaussian, thì phương pháp lấy trung bình là chính xác (miễn là bạn theo dõi sự giảm nhiễu quan sát). Tôi không thấy lý do tại sao cùng một đối số không nên hoạt động đối với các điểm gần với tỷ lệ chiều dài của vấn đề (với sự gần đúng trở nên tồi tệ hơn khi tăng khoảng cách). Có lẽ đây là những gì phương pháp của Nystrom làm, theo một cách nguyên tắc hơn - tôi vẫn cần phải hiểu chi tiết. Tôi tò mò so sánh nó với phương pháp tính trung bình, cả về độ chính xác và tốc độ. Cảm ơn
lacerbi

1
@Seeda chúng tôi không sử dụng nystrom như một điều kiện tiên quyết hiệu quả thay vì conpkexity giảm thời gian thông thường, vì vậy có.
j__

1

Tôi cũng đã nghiên cứu các quan sát hợp nhất khi thực hiện hồi quy quy trình Gaussian. Trong vấn đề của tôi, tôi chỉ có một đồng biến.

Tôi không chắc chắn rằng tôi nhất thiết phải đồng ý rằng việc xấp xỉ Nystrom là thích hợp hơn. Cụ thể, nếu có thể tìm thấy một xấp xỉ đủ dựa trên bộ dữ liệu được hợp nhất, các phép tính có thể nhanh hơn so với khi sử dụng xấp xỉ Nystrom.

Dưới đây là một số biểu đồ hiển thị 1000 điểm dữ liệu và giá trị trung bình GP sau, GP sau có nghĩa với các bản ghi được hợp nhất và GP sau có nghĩa là sử dụng xấp xỉ Nystrom. Các hồ sơ được nhóm dựa trên các thùng có kích thước bằng nhau của hiệp phương thức được đặt hàng. Thứ tự gần đúng liên quan đến số lượng nhóm khi hợp nhất các bản ghi và thứ tự của xấp xỉ Nystrom. Cả hai cách tiếp cận hợp nhất và xấp xỉ Nystrom đều tạo ra kết quả giống hệt với hồi quy GP tiêu chuẩn khi khi thứ tự gần đúng bằng số điểm.

Trong trường hợp này, khi thứ tự gần đúng là 10, phương pháp hợp nhất có vẻ thích hợp hơn. Khi thứ tự là 20, giá trị trung bình từ xấp xỉ Nystrom không thể phân biệt trực quan với giá trị trung bình GP chính xác, mặc dù giá trị trung bình dựa trên các quan sát hợp nhất có lẽ là đủ tốt. Khi đơn hàng là 5, cả hai đều khá nghèo.

nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.