"Lý thuyết lấy mẫu" mọi người sẽ nói với bạn rằng không có ước tính nào như vậy tồn tại. Nhưng bạn có thể có được một, bạn chỉ cần hợp lý về thông tin trước đó của bạn, và làm công việc toán học khó hơn rất nhiều.
Nếu bạn đã chỉ định một phương pháp ước lượng Bayes và hậu thế giống như trước, thì bạn có thể nói dữ liệu không nói gì về tham số. Bởi vì mọi thứ có thể có "số ít" đối với chúng tôi, sau đó chúng tôi không thể sử dụng không gian tham số vô hạn. Tôi giả sử rằng vì bạn sử dụng tương quan Pearson, bạn có khả năng bình thường bivariate:
nơi
Qi=(xi-μx)2
p(D|μx,μy,σx,σy,ρ)=(σxσy2π(1−ρ2)−−−−−−−−√)−Nexp(−∑iQi2(1−ρ2))
Qi=(xi−μx)2σ2x+(yi−μy)2σ2y−2ρ(xi−μx)(yi−μy)σxσy
Bây giờ để chỉ ra rằng một tập dữ liệu có thể có cùng giá trị, hãy viết và sau đó chúng tôi nhận được:yi=y
trong đó
s2x=1
∑iQi=N[(y−μy)2σ2y+s2x+(x¯¯¯−μx)2σ2x−2ρ(x¯¯¯−μx)(y−μy)σxσy]
s2x=1N∑i(xi−x¯¯¯)2
Và như vậy khả năng của bạn phụ thuộc vào bốn số, . Vì vậy, bạn muốn một ước lượng ρ , vì vậy bạn cần phải nhân với một trước, và tích hợp ra những phiền toái thông số μ x , μ y , σ x , σ y . Bây giờ để chuẩn bị cho hội nhập, chúng ta "hoàn thành vuông"
Σ i Q is2x,y,x¯¯¯,Nρμx,μy,σx,σy
∑iQi1−ρ2=N⎡⎣⎢⎢(μy−[y−(x¯¯¯−μx)ρσyσx])2σ2y(1−ρ2)+s2xσ2x(1−ρ2)+(x¯¯¯−μx)2σ2x⎤⎦⎥⎥
Bây giờ chúng ta nên lỗi ở phía thận trọng và đảm bảo xác suất chuẩn hóa đúng. Bằng cách đó chúng ta không thể gặp rắc rối. Một lựa chọn như vậy là sử dụng thông tin yếu trước, chỉ giới hạn phạm vi của từng loại. Vì vậy, chúng ta có cho các phương tiện với TV trước và L σ < σ x , σ y < U σ cho độ lệch chuẩn với Jeffreys trước. Những giới hạn này dễ dàng được thiết lập với một chút suy nghĩ "thông thường" về vấn đề. Tôi sẽ lấy một trước không xác định cho ρLμ<μx,μy<UμLσ<σx,σy<Uσρvà vì vậy chúng tôi nhận được (đồng phục sẽ hoạt động tốt, nếu không cắt bớt điểm kỳ dị ở ):±1
p(ρ,μx,μy,σx,σy)=p(ρ)Aσxσy
Trong đó . Điều này mang lại cho một hậu thế của:A=2(Uμ−Lμ)2[log(Uσ)−log(Lσ)]2
p(ρ|D)=∫p(ρ,μx,μy,σx,σy)p(D|μx,μy,σx,σy,ρ)dμydμxdσxdσy
=p(ρ)A[2π(1−ρ2)]N2∫UσLσ∫UσLσ(σxσy)−N−1exp(−Ns2x2σ2x(1−ρ2))×
∫UμLμexp(−N(x¯¯¯−μx)22σ2x)∫UμLμexp⎛⎝⎜⎜−N(μy−[y−(x¯¯¯−μx)ρσyσx])22σ2y(1−ρ2)⎞⎠⎟⎟dμydμxdσxdσy
Now the first integration over μy can be done by making a change of variables z=N−−√μy−[y−(x¯¯¯−μx)ρσyσx]σy1−ρ2√⟹dz=N√σy1−ρ2√dμy and the first integral over μy becomes:
σy2π(1−ρ2)−−−−−−−−√N−−√⎡⎣⎢Φ⎛⎝⎜Uμ−[y−(x¯¯¯−μx)ρσyσx]σyN√1−ρ2−−−−−√⎞⎠⎟−Φ⎛⎝⎜Lμ−[y−(x¯¯¯−μx)ρσyσx]σyN√1−ρ2−−−−−√⎞⎠⎟⎤⎦⎥
And you can see from here, no analytic solutions are possible. However, it is also worthwhile to note that the value ρ has not dropped out of the equations. This means that the data and prior information still have something to say about the true correlation. If the data said nothing about the correlation, then we would be simply left with p(ρ) as the only function of ρ in these equations.
It also shows how that passing to the limit of infinite bounds for μy "throws away" some of the information about ρ, which is contained in the complicated looking normal CDF function Φ(.). Now if you have a lot of data, then passing to the limit is fine, you don't loose much, but if you have very scarce information, such as in your case - it is important keep every scrap you have. It means ugly maths, but this example is not too hard to do numerically. So we can evaluate the integrated likelihood for ρ at values of say −0.99,−0.98,…,0.98,0.99 fairly easily. Just replace the integrals by summations over a small enough intervals - so you have a triple summation