Tôi muốn đề xuất cuốn sách Phân tích dữ liệu Bayes như một nguồn tuyệt vời để trả lời câu hỏi này (đặc biệt là chương 6) và tất cả mọi thứ tôi sắp nói. Nhưng một trong những cách thông thường mà người Bayes tấn công vấn đề này là sử dụng các giá trị P (PPP) Dự đoán Posterior. Trước khi tôi tìm hiểu về cách các PPP sẽ giải quyết vấn đề này, trước tiên tôi hãy xác định ký hiệu sau:
Đặt là dữ liệu quan sát và θ là vectơ của tham số. Chúng ta định nghĩa y đại diện là sao chép dữ liệu mà có thể được quan sát, hoặc, để suy nghĩ predictively, như dữ liệu chúng tôi sẽ nhìn thấy ngày mai nếu thử nghiệm rằng sản xuất y ngày nay đã được nhân rộng với mô hình tương tự và cùng giá trị của θ mà sản xuất các quan sát dữ liệu.yθyrepyθ
Lưu ý, chúng tôi sẽ xác định sự phân bố của cho tình trạng hiện tại của kiến thức với các hậu nghiệm tiên đoán phân phối
p ( y đại diện | y ) = ∫ q p ( y đại diện | θ ) p ( θ | y ) d θyrep
p(yrep|y)=∫Θp(yrep|θ)p(θ|y)dθ
Bây giờ, chúng ta có thể đo lường sự khác biệt giữa mô hình và dữ liệu bằng cách xác định số lượng thử nghiệm , các khía cạnh của dữ liệu mà chúng ta muốn kiểm tra. Một số lượng kiểm tra, hoặc biện pháp khác nhau , , là một bản tóm tắt vô hướng của các thông số và dữ liệu được sử dụng như một tiêu chuẩn khi so sánh dữ liệu để mô phỏng đoán. Số lượng thử nghiệm đóng vai trò trong mô hình Bayes kiểm tra số liệu thống kê thử nghiệm đóng trong thử nghiệm cổ điển. Chúng tôi xác định ký hiệu T ( y )T(y,θ)T(y)đối với thống kê kiểm tra, là số lượng kiểm tra chỉ phụ thuộc vào dữ liệu; trong bối cảnh Bayes, chúng ta có thể khái quát các thống kê kiểm tra để cho phép sự phụ thuộc vào các tham số mô hình theo phân phối sau của chúng.
Cổ điển, các giá trị p cho kiểm tra thống kê là
p C = Pr ( T ( y đại diện ) ≥ T ( y ) | θ )
nơi xác suất được thực hiện trên sự phân bố của y diện với θ cố định.T(y)
pC=Pr(T(yrep)≥T(y)|θ)
yrepθ
Từ góc độ Bayes, việc thiếu dữ liệu phù hợp với phân phối dự báo sau có thể được đo bằng xác suất vùng đuôi hoặc giá trị p của đại lượng thử nghiệm và được tính toán bằng cách sử dụng mô phỏng sau (θ,yrep)
pB=Pr(T(yrep,θ)≥T(y,θ)|y)
θyrepp(θ,yrep|y)pB=∬ΘIT(yrep,θ)≥T(y|θ)p(yrep|θ)p(θ|y)dyrepdθ,
I
LθyrepθLp(yrep,θ|y)T(y,θl)T(yrepl,θl)L
T(yrepl,θl)≥T(y,θl)
l=1,...,L
Trái ngược với cách tiếp cận cổ điển, kiểm tra mô hình Bayes không yêu cầu các phương pháp đặc biệt để xử lý "tham số phiền toái". Bằng cách sử dụng mô phỏng sau, chúng tôi hoàn toàn trung bình trên tất cả các tham số trong mô hình.
Một nguồn bổ sung, Andrew Gelman cũng có một bài viết rất hay về PPP tại đây:
http://www.stat.columbia.edu/~gelman/research/unpublished/ppc_understand2.pdf