Cỡ mẫu hiệu quả cho suy luận sau từ lấy mẫu MCMC

Khi lấy các mẫu MCMC để suy luận về một tham số cụ thể, các hướng dẫn tốt cho số lượng mẫu hiệu quả tối thiểu mà người ta nên nhắm đến là gì?

Và, lời khuyên này có thay đổi khi mô hình trở nên phức tạp hơn hay ít hơn?

— Matt Albrecht
nguồn

Tôi đoán là nó có thể sẽ phụ thuộc vào "hằng số" trong

lỗi, sẽ thay đổi giữa các mô hình.

O (n^{- \frac{1}{2}})

$O(n^{-\frac{1}{2}})$

— xác suất

Câu hỏi bạn đang hỏi khác với "chẩn đoán hội tụ". Hãy nói rằng bạn đã chạy tất cả các chẩn đoán hội tụ (chọn (các) mục yêu thích của bạn) và bây giờ đã sẵn sàng để bắt đầu lấy mẫu từ phía sau.

Có hai tùy chọn về kích thước mẫu hiệu quả (ESS), bạn có thể chọn ESS đơn biến hoặc ESS đa biến. Một ESS đơn biến sẽ cung cấp một cỡ mẫu hiệu quả cho từng tham số riêng biệt và các phương pháp bảo thủ chỉ ra, bạn chọn ước tính nhỏ nhất. Phương pháp này bỏ qua tất cả các mối tương quan chéo giữa các thành phần. Đây có lẽ là những gì hầu hết mọi người đã sử dụng trong một thời gian

Gần đây, một định nghĩa đa biến về ESS đã được giới thiệu. ESS đa biến trả về một số cho cỡ mẫu hiệu quả cho số lượng bạn muốn ước tính; và nó làm như vậy bằng cách tính tất cả các mối tương quan chéo trong quá trình. Cá nhân, tôi thích ESS đa biến. Giả sử bạn quan tâm đến -vector của phương tiện phân phối sau. MESS được định nghĩa như sau $p$ Đây

mESS = n {(\frac{| Λ |}{| Σ |})}^{1 / p} .

$\text{mESS} = n \left(\dfrac{|\Lambda|}{|\Sigma|}\right)^{1/p}.$

là cấu trúc hiệp phương sai của hậu (cũng là hiệp phương sai tiệm cận trong CLT nếu bạn có mẫu độc lập) $\Lambda$
là ma trận hiệp phương sai tiệm cận trong chuỗi Markov CLT (khác với kể từ khi mẫu có tương quan. $\Sigma$ $\Lambda$
là số lượng được ước tính (hoặc trong trường hợp này là kích thước của hậu thế. $p$
là yếu tố quyết định. $|\cdot|$

mớ hỗn độn có thể được ước tính bằng cách sử dụng các ma trận hiệp phương sai mẫu để ước tính và ma trận hiệp phương sai có nghĩa là hàng loạt để ước tính . Điều này đã được mã hóa trong hàm trong gói R mcmcse . $\Lambda$ $\Sigma$ multiESS

Bài viết gần đây này cung cấp một giới hạn thấp hơn về mặt lý thuyết về số lượng mẫu hiệu quả cần thiết. Trước khi mô phỏng, bạn cần quyết định

$\epsilon$ $\epsilon$
$\alpha$
$p$

mESS \geq \frac{2^{2 / p} π}{(p Γ (p / 2))^{2 / p}} \frac{χ_{1 - α, p}^{2}}{ϵ^{2}},

$\text{mESS} \geq \dfrac{2^{2/p} \pi}{(p \Gamma(p/2))^{2/p}} \dfrac{\chi^2_{1-\alpha, p}}{\epsilon^2},$

$\Gamma(\cdot)$ minESS

$p = 20$ $95\%$ $\epsilon = .05$

> minESS(p = 20, alpha = .05, eps = .05)
[1] 8716

Điều này đúng cho bất kỳ vấn đề nào (trong điều kiện thường xuyên). Cách mà phương pháp này thích ứng từ vấn đề này sang vấn đề khác là việc trộn các chuỗi Markov chậm mất nhiều thời gian hơn để đạt đến giới hạn thấp hơn, vì MESS sẽ nhỏ hơn. Vì vậy, bây giờ bạn có thể kiểm tra một vài lần bằng cách sử dụng multiESSliệu chuỗi Markov của bạn đã đạt đến giới hạn đó chưa; nếu không đi và lấy thêm mẫu.

— Công viên xanh
nguồn

(+1) Câu trả lời tuyệt vời. Bạn có biết chức năng multiESSđã được mã hóa cho các ngôn ngữ khác, chẳng hạn như MATLAB không? (hoặc sẽ khó thực hiện lại?)

— lacerbi

Σ

$\Sigma$

Σ

$\Sigma$

@lacerbi Tôi rất vui vì bạn đã có thể mã hóa nó trong Matlab. Nếu có thể, hãy trả lời bình luận này khi nó lên, vì vậy tôi có thể sử dụng nó. Cảm ơn

— Greenparker

MATLAB của tôi thực hiện multiESS có sẵn ở đây . Đây là phiên bản hoạt động mặc dù nó sẽ cần thêm một số thử nghiệm (tôi không quen với R, nếu không tôi sẽ so sánh nó với triển khai R).

— lacerbi

Sự hội tụ phụ thuộc vào một số điều: số lượng tham số, bản thân mô hình, thuật toán lấy mẫu, dữ liệu ...

Tôi sẽ đề nghị tránh bất kỳ quy tắc chung nào và sử dụng một vài công cụ chẩn đoán hội tụ để phát hiện số lần lặp lại và số lần lặp lại thích hợp trong mỗi ví dụ cụ thể. Xem thêm http://www.johnmyleswhite.com/notebook/2010/08/29/mcmc-diagnostics-in-r-with-the-coda-package/, http://users.stat.umn.edu/~geyer/mcmc/diag.html.

— Monte Cristo
nguồn