Các phép lặp MCMC sau khi ghi vào có thể được sử dụng để ước tính mật độ không?

Sau khi burn-in, chúng ta có thể sử dụng trực tiếp các lần lặp MCMC để ước tính mật độ, chẳng hạn như bằng cách vẽ biểu đồ hoặc ước tính mật độ hạt nhân không? Mối quan tâm của tôi là các lần lặp MCMC không nhất thiết phải độc lập, mặc dù chúng hầu hết được phân phối giống hệt nhau.

Điều gì xảy ra nếu chúng ta tiếp tục áp dụng pha loãng cho các lần lặp MCMC? Mối quan tâm của tôi là các lần lặp MCMC hầu như không tương quan, và chưa độc lập.

Cơ sở tôi đã học được khi sử dụng hàm phân phối theo kinh nghiệm như là ước tính của hàm phân phối thực dựa trên định lý Glivenko của Cantelli , trong đó hàm phân phối theo kinh nghiệm được tính dựa trên mẫu iid. Tôi dường như thấy một số căn cứ (kết quả tiệm cận?) Để sử dụng biểu đồ, hoặc ước tính mật độ hạt nhân làm ước tính mật độ, nhưng tôi không thể nhớ lại chúng.

distributions mcmc asymptotics

— Tim
nguồn

Câu trả lời:

Bạn có thể - và mọi người làm - ước tính mật độ từ lấy mẫu MCMC.

Một điều cần lưu ý là trong khi biểu đồ và KDE thuận tiện, ít nhất là trong các trường hợp đơn giản (như lấy mẫu Gibbs), có thể có sẵn các ước tính mật độ hiệu quả hơn nhiều .

Nếu chúng tôi xem xét việc lấy mẫu Gibbs nói riêng, mật độ có điều kiện mà bạn lấy mẫu có thể được sử dụng thay cho giá trị mẫu để tạo ra ước tính trung bình của mật độ. Kết quả có xu hướng khá trơn tru.

Cách tiếp cận được thảo luận trong

Gelfand và Smith (1990), "Phương pháp lấy mẫu dựa trên tính toán mật độ cận biên"
của Hiệp hội thống kê Mỹ , Tập. 85, số 410, trang 398-409

(mặc dù Geyer cảnh báo rằng nếu sự phụ thuộc của người lấy mẫu đủ cao thì điều đó không phải lúc nào cũng làm giảm phương sai và tạo điều kiện cho nó làm như vậy)

Cách tiếp cận này cũng được thảo luận, ví dụ, trong Robert, CP và Casella, G. (1999) Phương pháp thống kê Monte Carlo .

Bạn không cần sự độc lập, bạn thực sự đang tính trung bình. Nếu bạn muốn tính toán một lỗi tiêu chuẩn của ước tính mật độ (hoặc cdf), thì bạn phải tính đến sự phụ thuộc.

Tất nhiên, khái niệm tương tự áp dụng cho các kỳ vọng khác, và do đó, nó có thể được sử dụng để cải thiện các ước tính của nhiều loại trung bình khác.

— Glen_b -Reinstate Monica
nguồn

Cảm ơn! Bạn có nghĩa là, bởi vì các phân phối biên là những kỳ vọng trong việc phân phối chung, nên việc sử dụng các lần lặp MCMC tương quan để ước tính phân phối biên là không quan trọng? Điều gì nếu sử dụng các lần lặp tương quan để ước tính phân phối chung? Vẫn ổn?

— Tim

Không, đó là điều tôi muốn nói. Ý tôi là các công cụ ước tính mà chúng ta đang xử lý là trung bình của sự vật và đang được sử dụng để ước tính số lượng dân số có thể được hiểu lần lượt là kỳ vọng về những điều đó. Có, bạn có thể sử dụng các bản vẽ phụ thuộc để ước tính phân phối chung theo nghĩa tương tự.

— Glen_b -Reinstate Monica

Tại sao chúng ta có thể sử dụng các lần lặp tương quan để ước tính phân phối chung? Tôi nghĩ là không, bởi vì phân phối chung không phải là mong đợi một cái gì đó. Lưu ý rằng trong định lý Glellienko Cantelli, cdf theo kinh nghiệm được tính toán trên mẫu iid.

— Tim

Đối với mật độ, bạn có thể xem xét một cái gì đó giống như ước tính mẫu được mô tả ở đây chẳng hạn (và có thể được coi là giới hạn của biểu đồ với các thùng ngày càng hẹp); nó là một mức trung bình và tôi tin rằng kỳ vọng của nó là mật độ. Đối với cdf, bạn có thể cân nhắc xem bạn có thể làm gì với cdf theo kinh nghiệm để biến nó thành dạng trung bình hay không. Cả hai ý tưởng dường như sẽ làm việc với các mẫu từ một phân phối chung.

— Glen_b -Reinstate Monica

Sơ yếu lý lịch

Bạn có thể trực tiếp sử dụng các lần lặp MCMC cho bất cứ điều gì vì giá trị trung bình của mức có thể quan sát được của bạn sẽ tiếp cận một cách bất chính giá trị thực (vì bạn đang ở sau quá trình ghi hình).

Tuy nhiên, hãy nhớ rằng phương sai của trung bình này bị ảnh hưởng bởi mối tương quan giữa các mẫu. Điều này có nghĩa là nếu các mẫu tương quan, như thường thấy trong MCMC, việc lưu trữ mọi phép đo sẽ không mang lại bất kỳ lợi thế thực sự nào.

Về lý thuyết, bạn nên đo sau N bước, trong đó N là thứ tự thời gian tự tương quan của mức bạn có thể quan sát được.

Giải thích chi tiết

Hãy xác định một số ký hiệu để chính thức trả lời câu hỏi của bạn. Đặt là trạng thái mô phỏng MCMC của bạn tại thời điểm , được giả định cao hơn nhiều so với thời gian lưu trữ. Đặt là giá trị quan sát bạn muốn đo. $x_t$ $t$ $f$

Ví dụ: và : "1 nếu , 0 khác". tự nhiên được rút ra từ một phân phối , mà bạn sử dụng MCMC. $x_t \in \mathbb{R}$ $f=f_a(x)$ $x\in[a,a+\Delta]$ $x_t$ $P(x)$

Trong bất kỳ lấy mẫu nào, bạn sẽ luôn cần tính trung bình của một có thể quan sát được , bằng cách sử dụng công cụ ước tính: $f$

F = \frac{1}{N} \sum_{i = 1}^{N} f (x_{i})

$F = \frac{1}{N}\sum_{i=1}^N f(x_i)$

Chúng tôi thấy rằng giá trị trung bình của công cụ ước tính này (đối với ) là $\langle F\rangle$ $P(x)$

⟨ F ⟩ = \frac{1}{N} \sum_{i = 1}^{N} ⟨ f (x_{i}) ⟩ = ⟨ f (x) ⟩

$\langle F \rangle = \frac{1}{N}\sum_{i=1}^N \langle f(x_i)\rangle = \langle f(x)\rangle$

đó là những gì bạn muốn có được.

Mối quan tâm chính là khi bạn tính toán phương sai của công cụ ước tính này, , bạn sẽ có được các điều khoản của biểu mẫu $\langle F^2 \rangle - \langle F \rangle^2$

\sum_{i = 1}^{N} \sum_{j = 1}^{N} ⟨ f (x_{i}) f (x_{j}) ⟩

$\sum_{i=1}^N\sum_{j=1}^N \langle f(x_i)f(x_j)\rangle$

mà không hủy bỏ nếu là các mẫu tương quan. Hơn nữa, vì bạn có thể viết , bạn có thể viết tổng gấp đôi ở trên dưới dạng tổng của hàm tự tương quan của , $x_t$ $j=i+\Delta$ $f$ $R(\Delta)$

Vì vậy, để tóm tắt lại:

Nếu tính toán, nó không tốn bất cứ thứ gì để lưu trữ mọi biện pháp, bạn có thể làm điều đó, nhưng hãy nhớ rằng phương sai không thể được tính bằng công thức thông thường.
Nếu việc tính toán tốn kém ở mỗi bước trong MCMC của bạn, bạn phải tìm cách ước tính tích lũy của thời gian tự tương quan và chỉ thực hiện các phép đo mỗi . Trong trường hợp này, các phép đo là độc lập và do đó bạn có thể sử dụng công thức thông thường của phương sai. $\tau$ $\tau$

— Jorge Leitao
nguồn

Điều này không trả lời câu hỏi cụ thể, liên quan đến việc sử dụng các mẫu từ chuỗi Markov để xây dựng công cụ ước tính mật độ hợp lệ của hậu thế. Điểm sai số chuẩn của ước tính hàm tuyến tính của chúng tôi cao hơn ước tính ngây thơ dựa trên tính độc lập được đánh giá cao, nhưng OP vẫn không biết dựa trên câu trả lời này nếu nên xây dựng công cụ ước tính mật độ sử dụng (giả sử) làm mịn kernel (mà ngay cả khi lấy mẫu iid sẽ không hội tụ ở tốc độ ).

\sqrt{n}

$\sqrt n$

— anh chàng

Làm loãng chỉ là một sự lãng phí dữ liệu hữu ích. Nó không làm giảm phương sai của ước tính. Xem các bình luận cho câu hỏi này: stats.stackexchange.com/a/258529/58675

— DeltaIV

@DeltaIV, vâng. Quan điểm của tôi ở đây là mỏng hay không, thang thời gian liên quan vẫn là thời gian tự tương quan.

— Jorge Leitao