Tôi có thể lấy mẫu dữ liệu lớn ở mỗi lần lặp MCMC không?


8

Vấn đề: Tôi muốn thực hiện lấy mẫu Gibbs để suy ra một số hậu nghiệm trên một tập dữ liệu lớn. Thật không may, mô hình của tôi không đơn giản và do đó việc lấy mẫu quá chậm. Tôi sẽ xem xét các cách tiếp cận đa dạng hoặc song song, nhưng trước khi đi xa đến thế ...

Câu hỏi: Tôi muốn biết liệu tôi có thể lấy mẫu ngẫu nhiên (có thay thế) từ tập dữ liệu của mình ở mỗi lần lặp Gibbs hay không, để tôi có ít trường hợp học hỏi hơn ở mỗi bước.

Trực giác của tôi là ngay cả khi tôi thay đổi các mẫu, tôi sẽ không thay đổi mật độ xác suất và do đó mẫu Gibbs không nên chú ý đến mánh khóe. Tôi có đúng không Có một số tài liệu tham khảo của những người đã làm điều này?


1
Bên cạnh đó: một ý tưởng khác sẽ là thực hiện nhiều phân tích trên các mẫu con ngẫu nhiên của bộ dữ liệu lớn. Bằng cách đó bạn cũng có thể xác nhận chéo.
phỏng đoán

2
Tôi không thể trả lời chính xác câu hỏi của bạn với bất kỳ cơ quan nào (mặc dù nghi ngờ của tôi là bạn sẽ chỉ tăng lỗi xấp xỉ với Monte Carlo), sự thật đáng buồn là đây chỉ là một khía cạnh đáng tiếc của các phân tích MCMC của Bayesian: chúng là tính toán đắt. Nhận xét @conjectures là một ý tưởng tuyệt vời, nhưng không thực sự đi vào cốt lõi của vấn đề: quá tốn kém để vẽ tất cả các mẫu đó cho mỗi cá nhân. Đề nghị của tôi là viết mã C của riêng bạn cho công việc nặng nhọc (Rcpp trong R, Cython trong Python, v.v.) và cũng song song (khi không có phụ thuộc chi nhánh).

1
@conjectures Điều này nghe giống như túi bootstraps của Michael Jordan.
jaradniemi

1
Tôi sẽ đề nghị thay đổi bộ lấy mẫu của bạn để tránh sự gia tăng biến tiềm ẩn hoàn toàn. Bạn sẽ không còn có bộ lấy mẫu Gibbs nữa, nhưng thuật toán Metropolis-Hastings với đề xuất dựa trên một xấp xỉ bình thường với khả năng sẽ hoạt động tốt. Xem Phần 16.4 của phiên bản 2 của Phân tích dữ liệu Bayes.
jaradniemi

6
Đây là một lĩnh vực nghiên cứu tích cực mà tôi không biết rõ để tóm tắt chính xác cho bạn. Xem ví dụ jmlr.org/proceedings/ con / v32 / bardenet14.pdfarxiv.org/pdf/1304.5299v4.pdf
Andrew M

Câu trả lời:


1

Về các chiến lược lấy mẫu con: ví dụ, hãy xem xét để có hai quan sát và và xem xét đưa một số linh mục vào trung bình và phương sai. Đặt , hậu thế mà chúng tôi muốn đánh giá là COnsider bây giờ là biến nhị thức . Nếu chúng tôi đã chọn , nếu chúng tôi đã chọn , thì hậu thế mới là trong đóX1N(μ1,σ12)X2N(μ2,σ22)θ=(μ1,μ2,σ12,σ22)

f(θ|X1,X2)f(X1|θ)f(X2|θ)f(θ)
δB(0.5)δ=0X1δ=1X2
f(θ,δ|X1,X2)f(X1,X2|δ,θ)f(θ)f(δ)
f(X1,X2|δ,θ)=f(X1|θ)δf(X2|θ)1δ và . Bây giờ nếu bạn muốn lấy mẫu bước Gibbs, bạn phải tính và vì . Nếu bạn không sử dụng Metropolis Hastings thì bạn đề xuất một trạng thái mới và bạn chỉ phải tính một trạng thái giữa và , trạng thái được liên kết với các trạng thái được đề xuất nhưng bạn phải tính toán một giữaf(δ)=0.5δf(X1|θ)f(X2|θ)P(δ=1)=f(X1|θ)f(X1|θ)+f(X2|θ)δf(X1|θ)f(X2|θ)f(X1|θ)f(X2|θ)δδ
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.