Hậu thế rất khác so với trước và khả năng


21

Nếu trước và khả năng rất khác nhau, thì đôi khi một tình huống xảy ra trong đó hậu thế giống với cả hai. Xem ví dụ hình ảnh này, trong đó sử dụng phân phối bình thường.

Hành vi hậu thế

Mặc dù điều này là chính xác về mặt toán học, nó dường như không phù hợp với trực giác của tôi - nếu dữ liệu không phù hợp với niềm tin được giữ vững của tôi hoặc dữ liệu, tôi sẽ không mong đợi giá trị tốt và sẽ mong đợi một hậu thế phẳng toàn bộ phạm vi hoặc có lẽ là phân phối lưỡng kim xung quanh trước và khả năng (tôi không chắc điều đó có ý nghĩa logic hơn). Tôi chắc chắn sẽ không mong đợi một hậu thế chặt chẽ xung quanh một phạm vi phù hợp với cả niềm tin trước đây của tôi hoặc dữ liệu. Tôi hiểu rằng khi thu thập được nhiều dữ liệu hơn, hậu thế sẽ chuyển sang khả năng, nhưng trong tình huống này có vẻ phản trực giác.

Câu hỏi của tôi là: sự hiểu biết của tôi về tình huống này còn thiếu sót như thế nào (hoặc nó có khiếm khuyết). Là hậu thế chức năng 'chính xác' cho tình huống này. Và nếu không, làm thế nào khác nó có thể được mô hình hóa?

Vì lợi ích đầy đủ, trước khi được đưa ra như và khả năng như N ( μ = 6,1 , σ = 0,4 ) .N(μ=1.5,σ=0.4)N(μ=6.1,σ=0.4)

EDIT: Nhìn vào một số câu trả lời được đưa ra, tôi cảm thấy như mình chưa giải thích được tình huống này rất tốt. Quan điểm của tôi là phân tích Bayes dường như tạo ra một kết quả không trực quan với các giả định trong mô hình. Hy vọng của tôi là hậu thế bằng cách nào đó sẽ 'giải thích' cho các quyết định mô hình có lẽ tồi tệ, mà khi nghĩ về nó chắc chắn không phải là trường hợp. Tôi sẽ mở rộng theo điều này trong câu trả lời của tôi.


2
Điều đó chỉ đơn giản có nghĩa là bạn không thể giả định tính bình thường của hậu thế. Nếu bạn cho rằng hậu thế là bình thường, thì điều này thực sự sẽ đúng.
PascalVKooten

Tôi đã không đưa ra bất kỳ giả định nào về phía sau, chỉ có trước và khả năng. Và trong mọi trường hợp, hình thức phân phối dường như không liên quan ở đây - tôi có thể đã vẽ chúng bằng tay và cùng một hậu thế sẽ theo sau.
Rónán Daly

Tôi chỉ nói rằng bạn sẽ vứt bỏ niềm tin của mình vào hậu thế này nếu bạn không cho rằng hậu thế có thể bình thường. Xem xét một dữ liệu bình thường trước và bình thường, một hậu thế bình thường thực sự sẽ như thế này. Có lẽ hãy tưởng tượng dữ liệu nhỏ, một cái gì đó như thế này có thể thực sự xảy ra trong thực tế.
PascalVKooten

1
Con số này có đúng không? Có vẻ như khả năng trước nên rất gần với 0 vì chúng không bao giờ trùng nhau. Tôi gặp khó khăn khi thấy làm thế nào hậu thế của bạn có thể nhìn trộm ở đó vì trọng lượng của trước đó rất gần với 0 ở đó. Tui bỏ lỡ điều gì vậy? ×
Luca

1
@Luca Bạn đang quên về việc tái chuẩn hóa. Sản phẩm của ưu tiên và khả năng gần bằng 0, vâng - nhưng khi bạn bình thường hóa lại để nó tích hợp lại thành 1, điều này trở nên không liên quan.
Pat

Câu trả lời:


5

Có, tình huống này có thể phát sinh và là một tính năng của các giả định mô hình của bạn cụ thể là tính quy tắc trong mô hình lấy mẫu trước và mẫu (khả năng). Nếu thay vào đó, bạn đã chọn một phân phối Cauchy cho trước, thì hậu thế sẽ khác nhiều.

prior = function(x) dcauchy(x, 1.5, 0.4)
like = function(x) dnorm(x,6.1,.4)

# Posterior
propto = function(x) prior(x)*like(x)
d = integrate(propto, -Inf, Inf)
post = function(x) propto(x)/d$value

# Plot
par(mar=c(0,0,0,0)+.1, lwd=2)
curve(like, 0, 8, col="red", axes=F, frame=T)
curve(prior, add=TRUE, col="blue")
curve(post, add=TRUE, col="seagreen")
legend("bottomleft", c("Prior","Likelihood","Posterior"), col=c("blue","red","seagreen"), lty=1, bg="white")

Cauchy trước, mô hình lấy mẫu bình thường


Cảm ơn câu trả lời của bạn @jaradniemi, bạn có nghĩ rằng một Cauchy trước sẽ luôn tránh được tình huống cụ thể được đưa ra trong câu hỏi không?
Rónán Daly

1
Vâng. Nói chung các linh mục đuôi nặng cho phép dữ liệu dễ dàng áp đảo hơn trước.
jaradniemi

2
jaradniemi, điều đó có thể là như vậy, nhưng nếu bạn nói rằng bạn không muốn sự ưu tiên của mình ảnh hưởng đến hậu thế, tại sao bạn lại chọn một thông tin trước ở nơi đầu tiên? Có vẻ như bạn đang đề nghị chọn một cách khéo léo vì nó có vẻ nhiều thông tin, nhưng thực tế không phải vậy.
Florian Hartig

1
Nếu ưu tiên và khả năng đồng ý, thì bạn sẽ có được mức tăng chính xác mong muốn từ trước đến sau và do đó trước là thông tin. Nhưng việc chọn trước có đuôi nặng cho phép khả năng dễ dàng áp đảo trước khi hai bên không đồng ý.
jaradniemi

2

Tôi hơi không đồng ý với các câu trả lời được đưa ra cho đến nay - không có gì kỳ lạ về tình huống này. Khả năng là bất thường bình thường dù sao, và một bình thường trước đó không phải là hiếm gặp. Nếu bạn kết hợp cả hai, với thực tế là trước đó và có khả năng không đưa ra cùng một câu trả lời, chúng ta có tình huống chúng ta đang nói ở đây. Tôi đã mô tả rằng dưới đây với mã bởi jaradniemi.

Chúng tôi đề cập trong 1 rằng kết luận bình thường của một quan sát như vậy sẽ là một) mô hình bị sai cấu trúc b) dữ liệu sai c) trước đó là sai. Nhưng chắc chắn có điều gì đó không ổn và bạn cũng sẽ thấy điều này nếu bạn thực hiện một số kiểm tra dự đoán sau, dù sao bạn cũng nên làm.

1 Hartig, F.; Đê, J.; Hickler, T.; Higgins, SI; O'Hara, RB; Scheiter, S. & Huth, A. (2012) Kết nối các mô hình thảm thực vật động với dữ liệu - một viễn cảnh nghịch đảo. J. Biogeogr., 39, 2240-2252. http: // onlinel Library.wiley.com/doi/10.1111/j.1365-2699.2012.02745.x/abab

prior = function(x) dnorm(x,1,.3)
like = function(x) dnorm(x,-1,.3)

# Posterior
propto = function(x) prior(x)*like(x)
d = integrate(propto, -Inf, Inf)
post = function(x) propto(x)/d$value

# Plot
par(mar=c(0,0,0,0)+.1, lwd=2)
curve(like, -2, 2, col="red", axes=F, frame=T, ylim = c(0,2))
curve(prior, add=TRUE, col="blue")
curve(post, add=TRUE, col="seagreen")
legend("bottomleft", c("Prior","Likelihood","Posterior"), col=c("blue","red","seagreen"), lty=1, bg="white")

nhập mô tả hình ảnh ở đây


2

Tôi cảm thấy như câu trả lời mà tôi đang tìm kiếm khi nói đến câu hỏi này được tóm tắt tốt nhất bởi Lesaffre và Lawson trong Bayesian Biostatistic

1σ2=w0+w1
μσ

Điều này tóm tắt cho tôi, và được phác thảo đại khái trong các câu trả lời khác, đó là trường hợp làm mẫu cho các linh mục bình thường với khả năng bình thường có thể dẫn đến một tình huống mà hậu thế chính xác hơn cả. Điều này là phản trực giác, nhưng là một kết quả đặc biệt của việc mô hình hóa các yếu tố này theo cách này.


Điều này khái quát trong chiều cao hơn với ma trận Fisher. Hessian của khả năng đăng nhập của phân phối sau gần đỉnh của nó là tổng của hiệp phương sai trước và khả năng nghịch đảo. Nghịch đảo của tổng này là hiệp phương sai của hậu thế. Bởi vì hai ma trận xác định (bán) xác định (hiệp phương sai) được thêm vào, về mặt toán học được đảm bảo rằng độ chính xác của hậu thế sẽ vượt quá phân phối xác suất trước hoặc khả năng. Đây là một kết quả phổ quát trong khuôn khổ Bayes.
T3am5hark

2

X1X0μN(1.6,0.42)X1N(μ,0.42)X1X10.42+0.42=0.562ϕ((6.11.6)/0.56)=9.31016μ

X0N(μ,0.42)X0X0X1|X1X0|>6.11.6

X0X1


1

Sau khi suy nghĩ về điều này một thời gian, kết luận của tôi là với các giả định mô hình xấu, hậu thế có thể là kết quả phù hợp với cả niềm tin trước hoặc khả năng. Từ đó, kết quả tự nhiên là hậu thế không , nói chung, kết thúc phân tích. Nếu đó là trường hợp mà hậu thế phải phù hợp với dữ liệu hoặc nó sẽ được khuếch tán giữa trước và khả năng (trong trường hợp này), thì điều này sẽ phải được kiểm tra sau thực tế, có thể bằng kiểm tra dự báo sau hoặc một cái gì đó giống. Để kết hợp điều này vào mô hình dường như đòi hỏi khả năng đưa xác suất vào các báo cáo xác suất, điều mà tôi không nghĩ là có thể.


vâng, tôi đồng ý, hãy xem câu trả lời chi tiết hơn của tôi
Florian Hartig

0

Tôi nghĩ rằng đây thực sự là một câu hỏi thú vị. Đã ngủ trên đó, tôi nghĩ rằng tôi có một câu trả lời. Vấn đề chính là như sau:

  • Bạn đã coi khả năng là một pdf gaussian. Nhưng nó không phải là một phân phối xác suất - đó là một khả năng! Hơn nữa, bạn đã không dán nhãn trục của bạn rõ ràng. Những điều này kết hợp đã nhầm lẫn tất cả mọi thứ sau.

μσP(μ|μ,σ)μσP(X|μ,σ)XP(μ|X,σ,μ,σ)μ .

μP(X|μ) có cùng chiều rộng và chiều cao như trước ? Khi bạn phá vỡ nó thực sự là một tình huống kỳ lạ. Hãy suy nghĩ về hình thức trước và khả năng:

P(μ|μ,σ)=exp((μμ)22σ2)12πσ2

P(X|μ,σ)=i=1Nexp((xiμ)22σ2)12πσ2

The only way I can see that these can have the same width is if σ2=σ2/N. In other words, your prior is very informative, as its variance is going to be much lower than σ2 for any reasonable value of N. It is literally as informative as the entire observed dataset X!

So, the prior and the likelihood are equally informative. Why isn't the posterior bimodal? This is because of your modelling assumptions. You've implicitly assumed a normal distribution in the way this is set up (normal prior, normal likelihood), and that constrains the posterior to give a unimodal answer. That's just a property of normal distributions, that you have baked into the problem by using them. A different model would not necessarily have done this. I have a feeling (though lack a proof right now) that a cauchy distribution can a have multimodal likelihood, and hence a multimodal posterior.

So, we have to be unimodal, and the prior is as informative as the likelihood. Under these constraints, the most sensible estimate is starting to sound like a point directly between the likelihood and prior, as we have no reasonable way to tell which to believe. But why does the posterior get tighter?

I think the confusion here comes from the fact that in this model, σ is assumed to be known. Were it unknown, and we had a two dimensional distribution over μ and σ the observation of data far from the prior might make a high value of σ more probable, and so increase the variance of the posterior distribution of the mean too (as these two are linked). But we're not in that situation. σ is treated as known here. A such adding more data can only make us more confident in our prediction of the position of μ, and hence the posterior becomes narrower.

(A way to visualise it might be to imagine estimating the mean of a gaussian, with known variance, using just two sample points. If the two sample points are separated by very much more than the width of the gaussian (i.e. they're out in the tails), then that's strong evidence the mean actually lies between them. Shifting the mean just slightly from this position will cause an exponential drop off in the probability of one sample or another.)

In summary, the situation you have described is a bit odd, and by using the model you have you've included some assumptions (e.g. unimodality) into the problem that you didn't realise you had. But otherwise, the conclusion is correct.


Thanks for your answer @Pat, I agree with most of what you say here, the problem as set up was a bit sloppy (though the likelihood is simply a function of the parameters, so it's fine for it to be a probability density for sake of example). I should really do the analysis for μ and σ free, but do you think a diffuse prior on σ would always avoid the situation given in the question for the marginal posterior of μ?
Rónán Daly
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.