Bất cứ ai có thể giải thích các linh mục liên hợp trong các điều khoản đơn giản nhất có thể?


23

Tôi đã cố gắng để hiểu ý tưởng của các linh mục liên hợp trong thống kê Bayes trong một thời gian nhưng tôi chỉ đơn giản là không hiểu nó. Bất cứ ai cũng có thể giải thích ý tưởng bằng các thuật ngữ đơn giản nhất có thể, có lẽ sử dụng "Gaussian trước" làm ví dụ?

Câu trả lời:


23

Một ưu tiên cho một tham số hầu như sẽ luôn có một số dạng chức năng cụ thể (nói chung được viết theo mật độ). Giả sử chúng ta giới hạn bản thân trong một họ phân phối cụ thể, trong trường hợp đó, việc chọn trước giảm bớt việc chọn tham số của họ đó.

Ví dụ, hãy xem xét một mô hình bình thường YiiidN(μ,σ2) . Để đơn giản, chúng ta cũng lấy σ2 như đã biết. Phần này của mô hình - mô hình cho dữ liệu - xác định hàm khả năng.

Để hoàn thiện mô hình Bayesian của chúng tôi, ở đây chúng ta cần một trước khi cho μ .

Như đã đề cập ở trên, thường chúng ta có thể chỉ định một số gia đình phân phối cho trước của chúng tôi cho và sau đó chúng tôi chỉ phải chọn các thông số của phân phối (ví dụ, thường thông tin trước khi có thể khá mơ hồ - như khoảng nơi chúng tôi muốn xác suất để tập trung - thay vì ở dạng chức năng rất cụ thể, và chúng ta có thể có đủ tự do để mô hình hóa những gì chúng ta muốn bằng cách chọn các tham số - nói để khớp với giá trị trung bình và phương sai trước đó).μ

Nếu nó quay ra rằng sau cho là từ cùng một gia đình như trước, sau đó trước khi được cho là "liên hợp".μ

(Điều khiến nó trở nên liên hợp là cách nó kết hợp với khả năng)

Vì vậy, trong trường hợp này, chúng ta hãy trước Gaussian cho (nói μ ~ N ( θ , τ 2 ) ). Nếu chúng ta làm được điều đó, chúng ta thấy rằng sau cho μ cũng là Gaussian. Do đó, Gaussian trước là liên hợp trước cho mô hình của chúng tôi ở trên.μμN(θ,τ2)μ

Đó là tất cả những gì thực sự có - nếu hậu thế đến từ cùng một gia đình như trước, thì đó là một liên hợp trước.

Trong các trường hợp đơn giản, bạn có thể xác định một liên hợp trước bằng cách kiểm tra khả năng. Ví dụ, xem xét khả năng nhị thức; bỏ các hằng số, nó trông giống như mật độ beta trong ; và do cách kết hợp sức mạnh của p( 1 - p ) , nó sẽ nhân với một phiên bản beta trước khi đưa ra một sản phẩm có sức mạnh của p( 1 - p ) ... vì vậy chúng ta có thể thấy ngay từ khả năng beta sẽ là một liên hợp trước cho p trong khả năng nhị thức.pp(1p)p(1p)p

Trong trường hợp Gaussian, dễ dàng thấy rằng điều đó sẽ xảy ra bằng cách xem xét mật độ log và khả năng log; các loga sẽ bậc hai trong và tổng của hai quadratics là bậc hai, do đó, một bậc hai log-trước + bậc hai loga đưa ra một sau bậc hai (mỗi hệ số của nhiệm kỳ thứ tự cao nhất tất nhiên sẽ là tiêu cực).μ


9

Nếu mô hình của bạn thuộc về một gia đình theo cấp số nhân , có nghĩa là, nếu mật độ của phân phối có dạng

f(x|θ)=h(x)exp{T(θ)S(x)ψ(θ)}xXθΘ
đối với một vớibiện pháp thống trị cho(Lebesgue, đếm, & tc.), nơits biểu thị một vô hướng sản phẩm trênRd
T:XRdS:ΘRd
là chức năng đo lường được, các priors liên hợp trênθ được xác định bởi mật độ của mẫu
π(θ|ξ,λ)=C(ξ,λ)exp{T(θ)ξλψ(θ)}
[đối với biện pháp thống trị được lựa chọn tùy ý dν trên Θ ] với
C(ξ,λ)1=Θexp{T(θ)ξλψ(θ)}dν<
λΛR+ ,ξΞλT(X)

Sự lựa chọn của các biện pháp thống trị là quyết định cho gia đình của các linh mục. Ví dụ, nếu người ta phải đối mặt với khả năng trung bình bình thường đối với μ như trong câu trả lời của Glen_b , thì chọn biện pháp Lebesgue dμ làm biện pháp thống trị dẫn đến các linh mục bình thường được liên hợp. Nếu thay vào đó người ta chọn (1+μ2)2dμ là biện pháp chiếm ưu thế, các priors liên hợp nằm trong gia đình của các bản phân phối với mật độ

exp{α(μμ0)2}α>0,  μ0R
với sự tôn trọng để đo lường thống trị này, và do đó không còn bình thường priors. Khó khăn này về cơ bản giống như việc chọn một tham số cụ thể về khả năng và lựa chọn biện pháp Lebesgue cho tham số hóa này. Khi phải đối mặt với một hàm khả năng, không có thước đo chi phối (hoặc nội tại hoặc tham chiếu) vốn có trên không gian tham số.

Bên ngoài bối cảnh gia đình theo cấp số nhân này, không có gia đình phân phối không tầm thường với sự hỗ trợ cố định cho phép các linh mục liên hợp. Đây là hậu quả của bổ đề Darmois-Pitman-Koopman .


11
"trong điều kiện đơn giản nhất có thể?" Có lẽ một lời giải thích không cho rằng kiến ​​thức trước về các biện pháp sẽ hữu ích hơn cho OP.

3
than ôi, tôi sợ các linh mục liên hợp là vô nghĩa nếu không có nền tảng đo lường (mặc dù đây là bí mật được giữ bí mật nhất trong Vũ trụ).
Tây An

6
Theo tôi, "thuật ngữ đơn giản nhất có thể" là giải thích và một lời giải thích sử dụng toán học nâng cao như lý thuyết đo lường vẫn có thể "đơn giản" theo một nghĩa nào đó, thậm chí có thể "đơn giản" hơn một lời giải thích tránh máy móc như vậy. Trong mọi trường hợp, một lời giải thích như vậy có thể rất sáng tỏ với một người có kiến ​​thức cần thiết để hiểu nó, và thật vô hại khi đưa một câu trả lời như thế này vào một danh sách các cách khác nhau để giải thích một chủ đề. Chúng tôi viết câu trả lời không chỉ cho OP mà cho tất cả các độc giả tương lai.
littleO

1
@LBogaardt Những lời chỉ trích của bạn sẽ có trọng lượng hơn nếu bạn có thể liên kết đến một hoặc nhiều câu hỏi mà bạn nghĩ câu trả lời này sẽ là cả về chủ đề và ở mức độ phù hợp hơn. Xin lưu ý rằng "đơn giản" không phải là một thuật ngữ được xác định rõ ràng và có những cách hiểu chủ quan khác nhau. Bất kể, sẽ không hợp lệ nếu kết hợp nó với "toán học không phức tạp", như đề xuất của các bình luận của bạn.
whuber

2
Câu trả lời của Xi'an không vô dụng với tôi. Tôi đã học được điều gì đó.
littleO

2

Tôi thích sử dụng khái niệm "hạt nhân" của một bản phân phối. Đây là nơi bạn chỉ để lại trong các phần phụ thuộc vào tham số. Một vài ví dụ đơn giản.

Kernel bình thường

p(μ|a,b)=K1×exp(aμ2+bμ)
Trong trường hợp K là "liên tục bình thường hóa" K=exp(aμ2+bμ)dμ=πaexp(b24a) Kết nối với các thông số / sai tiêu chuẩn trung bình làE(μ|a,b)=b2a and Var(μ|a,b)=12a

p(θ|a,b)=K1×θa(1θ)b
Where K=θa(1θ)bdθ=Beta(a+1,b+1)

When we look at the likelihood function, we can do the same thing, and express it in "kernel form". For example with iid data

p(D|μ)=i=1np(xi|μ)=Q×f(μ)

For some constant Q and some function f(μ). If we can recognise this function as a kernel, then we can create a conjugate prior for that likelihood. If we take the normal likelihood with unit variance, the above looks like

p(D|μ)=i=1np(xi|μ)=i=1n12πexp((xiμ)22)=[i=1n12π]×i=1nexp((xiμ)22)=(2π)n2×exp(i=1n(xiμ)22)=(2π)n2×exp(i=1nxi22xiμ+μ22)=(2π)n2×exp(i=1nxi22)×exp(μi=1nxiμ2n2)=Q×exp(aμ2+bμ)

where a=n2 and b=i=1nxi and Q=(2π)n2×exp(i=1nxi22)

This likelihood function has the same kernel as the normal distribution for μ, so a conjugate prior for this likelihood is also the normal distribution.

p(μ|a0,b0)=K01exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)K01exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K01×Q×exp([a+a0]μ2+[b+b0]μ)exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.

In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.


1
(+1) I appreciate the pseudo-data intuition!
Xi'an

0

For a given distribution family Dlik of the likelihood (e.g. Bernoulli),

if the prior is of the same distribution family Dpri as the posterior (e.g. Beta),

then Dpri and Dlik are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.

Note: p(θ|x)posteriorp(x|θ)likelihoodp(θ)prior


How does this explain what a conjugate prior is?
LBogaardt

ok I'll edit that.
Thomas G.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.