Tại sao lấy mẫu từ phân phối dự báo sau

7

Trong mô hình Bayes, phân phối dự báo sau thường được viết là:

p (x_{n e w} | x_{1}, Giáo dục x_{n}) = = \int_{- \infty}^{\infty} p (x_{n e w} | μ) p (μ | x_{1}, Giáo dục x_{n}) d μ

$p(x_{new} \mid x_1, \ldots x_n) = \int_{-\infty}^{\infty} p(x_{new}\mid \mu) \ p(\mu \mid x_1, \ldots x_n)d\mu$

cho một tham số trung bình $\mu$ . Sau đó, bên trong hầu hết các cuốn sách, chẳng hạn như liên kết này:

Lấy mẫu MCMC

Người ta tuyên bố rằng việc lấy mẫu từ thường dễ dàng hơn $p(x_{new} \mid x_1, \ldots x_n)$ sử dụng phương pháp Monte Carlo. Thông thường, thuật toán là:

cho $j=1 \ldots J$ :

1) Mẫu $\mu^{\ j}$ từ $p(\mu \mid x_1, \ldots x_n)$ sau đó

2) Mẫu $x^{\ * j}$ từ $p(x_{new} \mid \mu^{\ j})$ .

Sau đó, $x^{\ * 1}, \ldots, x^{\ * J}$ sẽ là một mẫu iid từ $p(x_{new} \mid x_1, \ldots x_n)$ .

Điều làm tôi bối rối là tính hợp lệ của kỹ thuật này. Sự hiểu biết của tôi là cách tiếp cận Monte Carlo sẽ gần đúng tích phân, vì vậy trong trường hợp này, tại sao lại làm $x^{\ * j}$ Mỗi mẫu tạo thành một mẫu từ $p(x_{new} \mid x_1, \ldots x_n)$ ?

Tại sao không phải là trường hợp trung bình của tất cả các mẫu thay vào đó sẽ được phân phối dưới dạng $p(x_{new} \mid x_1, \ldots x_n)$ ? Tôi theo giả định rằng tôi đang tạo một phân vùng hữu hạn để xấp xỉ tích phân ở trên. Tui bỏ lỡ điều gì vậy? Cảm ơn!

bayesian mcmc gibbs

— người dùng1398057
nguồn

8

Những gì bạn đang thực sự làm với quy trình hai bước bạn đã vạch ra là lấy mẫu từ phân phối chung $p(x_{new}, \mu \thinspace | \thinspace x_1, \dots, x_n)$ , sau đó bỏ qua các giá trị được lấy mẫu của $\mu$ . Nó không hoàn toàn trực quan, nhưng, bằng cách bỏ qua các giá trị được lấy mẫu của $\mu$ , bạn đang tích hợp trên nó.

Một ví dụ đơn giản có thể làm rõ điều này. Xem xét lấy mẫu từ $p_X(x \thinspace | \thinspace y) = 1/y \thinspace \text{I}(0,y)$ , đồng phục hơn $(0,y)$ và $p_Y(y) = 1$ , đồng phục hơn $(0,1)$ . Bạn sẽ có thể nhìn thấy, bằng trực giác, những gì $\int_0^1p_X(x \thinspace | \thinspace y)p_Y(y)dy$ sẽ như thế nào Chúng tôi xây dựng một số mã R đơn giản, không hiệu quả khủng khiếp (được viết theo cách này cho mục đích lưu trữ) để tạo các mẫu:

samples <- data.frame(y=rep(0,10000), x=rep(0,10000))
for (i in 1:nrow(samples)) {
   samples$y[i] <- runif(1)
   samples$x[i] <- runif(1, 0, samples$y[i])
}
hist(samples$x)

samples rõ ràng là một mẫu ngẫu nhiên từ phân phối chung của $x$ và $y$ . Chúng tôi bỏ qua $y$ các giá trị và xây dựng một biểu đồ chỉ $x$ các giá trị, trông giống như:

mà hy vọng phù hợp với trực giác của bạn.

Nếu bạn suy nghĩ cẩn thận về nó, bạn sẽ thấy rằng các mẫu của $x$ không phụ thuộc vào bất kỳ giá trị cụ thể nào của $y$ . Thay vào đó, họ phụ thuộc (gọi chung) vào một mẫu các giá trị của $y$ . Đây là lý do tại sao bỏ qua $y$ các giá trị tương đương với tích hợp $y$ , ít nhất là từ một quan điểm tạo số ngẫu nhiên.

Mặt khác, xem xét những gì xảy ra nếu bạn trung bình. Bạn sẽ chỉ nhận được một số từ cuộc chạy Monte Carlo của mình, cụ thể là mức trung bình của $x_{new}$ mẫu. Đây không phải là những gì bạn muốn (trong trường hợp của bạn)!

— khuỷu tay
nguồn

3

Cảm ơn bài viết của bạn, bạn có biết nếu có một cách nghiêm ngặt về mặt toán học để suy nghĩ về nó?

— user1398057 6/12/2015

0

Tôi nghĩ rằng bạn chắc chắn phải trộn lẫn với các giá trị được lấy mẫu cuối cùng. Cũng có những bài giảng của Peter Hoff về "Giới thiệu về Thống kê Bayes cho Khoa học Xã hội" nói như vậy. Nếu không, bạn sẽ không tính đến số đông nhận được từ phía sau. Vì vậy, bạn xây dựng phân phối theo kinh nghiệm của các giá trị được lấy mẫu của mình x ^ {* j} và sau đó lấy mẫu lại từ phân phối này.

Ví dụ: Nếu hậu thế của bạn rời rạc (chỉ khối lượng điểm trên các nguyên tử) thì một số mẫu tham số của bạn sẽ có cùng giá trị. Nếu cuối cùng bạn trộn lẫn với chúng, bạn sẽ tính đến "tần suất" tham số như vậy xuất hiện từ phía sau - đặt khác đi, khả năng của nó là như thế nào. Sau đó, tính trung bình theo sự xuất hiện này sẽ đưa ra dự đoán sau sẽ được phê duyệt. giống như thực hiện quy trình trên với việc trộn cuối cùng, ít nhất là nếu (các) cỡ mẫu là (lớn).

— KOT
nguồn

0

Tôi nghĩ rằng các câu trả lời hiện có, rất tốt, có thể được tăng cường bằng một ví dụ với các biến ngẫu nhiên rời rạc. Chúng ta có

p (x_{n e w} | x_{1}, Giáo dục x_{n}) = = \int_{- \infty}^{\infty} p (x_{n e w}, μ | x_{1}, Giáo dục x_{n}) d μ = = \int_{- \infty}^{\infty} p (x_{n e w} | μ) p (μ | x_{1}, Giáo dục x_{n}) d μ

$p(x_{new} \mid x_1, \ldots x_n) = \int_{-\infty}^{\infty} p(x_{new},\mu \mid x_1, \ldots x_n)d\mu = \int_{-\infty}^{\infty} p(x_{new}\mid \mu) \ p(\mu \mid x_1, \ldots x_n)d\mu$

Để đơn giản hóa, hãy xem xét một $\mu$ đó là nhị phân: $p(\mu = 1 \mid x_1 \dots x_n) = p$ và $p(\mu = 0 \mid x_1 \dots x_n) = 1-p$ . Giả sử thêm rằng $x_{new}$ là nhị phân với $p(X=1)=\mu-1$ và $p(X=0)=\mu$ . Tôi sẽ không sử dụng những xác suất này trong tương lai, nhưng bạn có thể thấy rằng $x_{new}$ phụ thuộc $\mu$ .

Nói rằng chúng tôi sau đó vẽ 14 mẫu bằng cách sử dụng $\mu \sim p(\mu \mid x_1,\dots, x_n)$ và $x_{new} \sim p(x_{new} \mid \mu )$ . Chúng tôi nhận được sau đây. Như được đề cập bởi @jbowman, chúng tôi thực sự đang lấy mẫu từ $p(x_{new}, \mu \mid x_1 \dots x_n)$ .

    mu    x_new
1.  1       0
2.  1       1
3.  0       0
4.  1       1
5.  0       0
6.  0       0
7.  0       0
8.  1       1
9.  1       1
10. 0       1
11. 1       0
12. 1       1
13. 0       1
14. 1       1

Chúng ta có thể minh họa thực tế rằng chúng ta đang lấy mẫu từ khớp $p(x_{new}, \mu \mid x_1,\dots, x_n)$ rõ ràng hơn bằng cách đầu tiên xây dựng một bảng đếm.

        x_new
        0    1    
      ----------- 

   0    6    1
mu 
   1    2    5

Chia mỗi mục nhập cho tổng số (6 + 1 + 2 +5 = 14) cho

        x_new
        0    1    
      ----------- 

   0    0.43    0.07
mu 
   1    0.14    0.36

Đó là phân phối chung theo kinh nghiệm. Ví dụ, ước tính của chúng tôi về $p(x_{new}=0, \mu=0)=.43$ . Do đó thủ tục lấy mẫu của chúng tôi đã cho chúng tôi khớp.

Cuối cùng, chúng ta sẽ thấy lý do tại sao thực sự cần thiết phải "đánh giá" tích phân (mặc dù không lấy trung bình ra tích phân). Điều này ẩn ý trong câu trả lời của @ jbowman khi họ nói

Nó không hoàn toàn trực quan, nhưng, bằng cách bỏ qua các giá trị được lấy mẫu của, bạn đang tích hợp vào nó.

Để có được $p(x_{new} \mid x_1 \dots x_n)$ , chúng tôi chỉ đơn giản là tổng hợp trên các hàng.

        x_new
        0    1    
      ----------- 

       .57  .43

Đây là những gì ngụ ý bằng cách "bỏ qua các giá trị được lấy mẫu của $\mu$ "và đây là bước bên lề. Một cách khác thường được thực hiện là bằng cách xây dựng một biểu đồ (bằng cách tóm tắt các hàng, chúng tôi đã xây dựng một biểu đồ ở đây).

Vì vậy, quy trình lấy mẫu không cung cấp cho chúng tôi biên - nói cách khác, nó không "hoạt động" theo định nghĩa của bạn trong câu hỏi. Thay vào đó, nó mang lại cho chúng ta khớp và chúng ta thường (bằng cách bỏ qua $\mu$ , bằng cách xây dựng một biểu đồ, hoặc bằng cách lấy các lượng tử) ngoài lề $\mu$ .

— người dùng0
nguồn