Bayesian cập nhật với dữ liệu mới


17

Làm thế nào để chúng ta đi tính toán một hậu thế với N ~ (a, b) trước sau khi quan sát n điểm dữ liệu? Tôi giả sử rằng chúng ta phải tính trung bình mẫu và phương sai của các điểm dữ liệu và thực hiện một số phép tính kết hợp giữa sau với trước, nhưng tôi không chắc chắn công thức kết hợp trông như thế nào.

Câu trả lời:


22

Ý tưởng cơ bản của Bayesian cập nhật được rằng đưa ra một số dữ liệu Xtrước khi thông số trên của lãi θ , nơi mà các mối quan hệ giữa dữ liệu và tham số được mô tả bằng khả năng chức năng, bạn sử dụng định lý Bayes để có được sau

p(θX)p(Xθ)p(θ)

Điều này có thể được thực hiện tuần tự, nơi sau khi nhìn thấy điểm dữ liệu đầu tiên x1 trước θ trở nên cập nhật để sau θ , tiếp theo bạn có thể mất điểm dữ liệu thứ hai x2 và sử dụng sau thu được trước khi θ như của bạn trước , để cập nhật nó một lần nữa, vv

Tôi sẽ cho bạn một ví dụ. Hãy tưởng tượng rằng bạn muốn ước tính trung bình μ phân phối bình thường và σ2 được biết đến với bạn. Trong trường hợp như vậy chúng ta có thể sử dụng mô hình bình thường-bình thường. Chúng tôi giả định bình thường trước khi cho μ với siêu tham số μ0,σ02:

XμNormal(μ, σ2)μNormal(μ0, σ02)

Kể từ phân phối chuẩn là một liên hợp trước cho của phân phối chuẩn, chúng tôi đã đóng dạng giải pháp để cập nhật trướcμ

E(μx)=σ2μ+σ02xσ2+σ02Var(μx)=σ2σ02σ2+σ02

Thật không may, các giải pháp dạng đóng đơn giản như vậy không có sẵn cho các vấn đề phức tạp hơn và bạn phải dựa vào các thuật toán tối ưu hóa (để ước tính điểm bằng cách sử dụng tối đa phương pháp posteriori ) hoặc mô phỏng MCMC.

Dưới đây bạn có thể xem ví dụ dữ liệu:

n <- 1000
set.seed(123)
x     <- rnorm(n, 1.4, 2.7)
mu    <- numeric(n)
sigma <- numeric(n)

mu[1]    <- (10000*x[i] + (2.7^2)*0)/(10000+2.7^2)
sigma[1] <- (10000*2.7^2)/(10000+2.7^2)
for (i in 2:n) {
  mu[i]    <- ( sigma[i-1]*x[i] + (2.7^2)*mu[i-1] )/(sigma[i-1]+2.7^2)
  sigma[i] <- ( sigma[i-1]*2.7^2                  )/(sigma[i-1]+2.7^2)
}

Nếu bạn vẽ kết quả, bạn sẽ thấy hậu thế tiếp cận giá trị ước tính (giá trị thực của nó được đánh dấu bằng đường màu đỏ) khi dữ liệu mới được tích lũy.

Updating prior in subsequent steps in normal-normal model

Để tìm hiểu thêm, bạn có thể kiểm tra các slide đóphân tích Conjugate Bayesian của bài phân phối Gaussian của Kevin P. Murphy. Kiểm tra các linh mục Bayes có trở nên không liên quan với cỡ mẫu lớn không? Bạn cũng có thể kiểm tra các ghi chúmục blog này để biết giới thiệu từng bước có thể truy cập về suy luận Bayes.


Cảm ơn bạn, điều này rất hữu ích. Làm thế nào chúng ta sẽ giải quyết ví dụ đơn giản này (phương sai không xác định, không giống như ví dụ của bạn)? Giả sử chúng ta có phân phối trước của N ~ (5, 4) và sau đó chúng ta quan sát 5 điểm dữ liệu (8, 9, 10, 8, 7). Điều gì sẽ là hậu thế sau những quan sát này? Cảm ơn bạn trước. Nhiều đánh giá cao.
statstudent

@Kelly bạn có thể tìm thấy các ví dụ cho các trường hợp khi phương sai không xác định và có nghĩa là đã biết hoặc cả hai đều không xác định trong mục Wikipedia về các linh mục liên hợp và các liên kết tôi cung cấp ở cuối câu trả lời của tôi. Nếu cả hai giá trị trung bình và phương sai không xác định, nó trở nên phức tạp hơn một chút.
Tim

@Kelly btw, bạn có thể kiểm tra ở đây cho ví dụ về lập dự toán cả σ 2 . μσ2
Tim

4

Nếu bạn có một trước và một hàm likelihood P ( x | θ ) bạn có thể tính toán sau với:P(θ)P(xθ)

P(θx)=θP(xθ)P(θ)P(x)

chỉ là hằng số chuẩn hóa để tổng xác suất thành một, nên bạn có thể viết:P(x)

P(θx)θP(xθ)P(θ)

nơi có nghĩa là "tỷ lệ thuận với."

Trường hợp của các linh mục liên hợp (nơi bạn thường nhận được các công thức dạng đóng đẹp)

Bài viết Wikipedia này về các linh mục liên hợp có thể là thông tin. Hãy là một vector của các thông số của bạn. Hãy P ( θ ) là một trước khi qua các thông số của bạn. Hãy để P ( x | q ) là hàm likelihood, xác suất của dữ liệu cho các thông số. Trước là một liên hợp trước cho hàm likelihood nếu trước P ( θ )sau P ( θ | x )θP(θ)P(xθ)P(θ) P(θx) đang ở trong cùng một gia đình (ví dụ cả Gaussian.).

Bảng phân phối liên hợp có thể giúp xây dựng một số trực giác (và cũng đưa ra một số ví dụ hướng dẫn để làm việc thông qua chính bạn).


1

Đây là vấn đề tính toán trung tâm cho phân tích dữ liệu Bayes. Nó thực sự phụ thuộc vào dữ liệu và phân phối liên quan. Đối với các trường hợp đơn giản trong đó mọi thứ có thể được biểu thị ở dạng kín (ví dụ: với các linh mục liên hợp), bạn có thể sử dụng trực tiếp định lý Bayes. Họ kỹ thuật phổ biến nhất cho các trường hợp phức tạp hơn là chuỗi Markov Monte Carlo. Để biết chi tiết, xem bất kỳ sách giáo khoa giới thiệu về phân tích dữ liệu Bayes.


Cảm ơn bạn rất nhiều! Xin lỗi nếu đây là một câu hỏi tiếp theo thực sự ngu ngốc, nhưng trong những trường hợp đơn giản mà bạn đã đề cập, chính xác chúng ta sẽ sử dụng định lý Bayes như thế nào? Phân phối được tạo bởi giá trị trung bình mẫu và phương sai của các điểm dữ liệu sẽ trở thành hàm khả năng? Cảm ơn rât nhiều.
statstudent

@Kelly Một lần nữa, nó phụ thuộc vào việc phân phối. Xem ví dụ: en.wikipedia.org/wiki/Conjugate_p Warrior#Example . (Nếu tôi trả lời câu hỏi của bạn, đừng quên chấp nhận câu trả lời của tôi bằng cách nhấp vào dấu kiểm dưới mũi tên biểu quyết.)
Kodiologist
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.