MCMC; Chúng ta có thể chắc chắn rằng chúng ta có một mẫu '' tinh khiết '' và 'đủ lớn' 'từ phía sau không? Làm thế nào nó có thể làm việc nếu chúng ta không?


12

Đề cập đến chủ đề này: Làm thế nào bạn sẽ giải thích Markov Chain Monte Carlo (MCMC) cho một giáo dân? .

Tôi có thể thấy rằng đó là sự kết hợp của Chuỗi Markov và Monte Carlo: chuỗi Markov được tạo ra với phân phối giới hạn dưới dạng bất biến và sau đó rút ra Monte Carlo (phụ thuộc) từ phân phối giới hạn (= sau của chúng tôi).

Hãy nói (Tôi biết rằng tôi đang đơn giản hóa ở đây) rằng sau khi bước chúng ta đang ở sự phân bố hạn chế ΠLΠ (*).

Chuỗi Markov là một chuỗi các biến ngẫu nhiên, tôi nhận được một chuỗi , nơi X i là một biến ngẫu nhiên và Π là hạn chế '' biến ngẫu nhiên '' Từ đó chúng tôi muốn lấy mẫu. X1,X2,,XL,Π,Π,Π,ΠXiΠ

MCMC bắt đầu từ một giá trị ban đầu, tức là là một biến ngẫu nhiên có tất cả khối lượng tại một giá trị đó x 1 . Nếu tôi sử dụng chữ in hoa cho các biến ngẫu nhiên, chữ nhỏ cho ngộ của một biến ngẫu nhiên, sau đó các MCMC mang lại cho tôi một chuỗi x 1 , x 2 , x 3 , ... x L , π 1 , π 2 , π 3 , . . . . π n . Vậy độ dài của chuỗi MCMC là L + n.X1x1x1,x2,x3,xL,π1,π2,π3,....πn

[[* Lưu ý: chữ in hoa là các biến ngẫu nhiên (nghĩa là toàn bộ kết quả) và nhỏ là kết quả, tức là một giá trị cụ thể. *]]x

Rõ ràng, chỉ có thuộc về tôi '' sau '' và cho xấp xỉ sau '' tốt '' giá trị của n nên '' đủ lớn ''.πin

Nếu tôi tóm tắt này sau đó tôi có một chuỗi MCMC có độ dài N = L + n , chỉ π 1 , π 2 , ... , π n có liên quan cho xấp xỉ sau tôi, và nx1,x2,x3,xL,π1,π2,π3,....πnN=L+nπ1,π2,,πnn phải đủ lớn.

Nếu tôi bao gồm một số (tức là nhận ra trước khi đạt được phân phối bất biến) trong tính toán gần đúng của hậu thế, thì nó sẽ là '' ồn ào ''.xi

Tôi biết độ dài của chuỗi MCMC , nhưng không có kiến ​​thức về L , tức là bước mà tôi chắc chắn lấy mẫu từ phân phối giới hạn, tôi không thể chắc chắn rằng tôi không bao gồm tiếng ồn, tôi cũng không thể đặc biệt chắc chắn về n = N - L , kích thước mẫu của tôi từ phân phối giới hạn, đặc biệt, tôi không thể chắc chắn liệu nó có '' đủ lớn '' hay không. N=L+nLn=NL

Vì vậy, theo như tôi hiểu, giá trị này của có tầm quan trọng quyết định đối với chất lượng gần đúng của hậu thế (loại trừ nhiễu và một mẫu lớn từ nó)L .

Có cách nào để tìm ước tính hợp lý cho khi tôi áp dụng MCMC không?L

(*) Tôi nghĩ rằng, nói chung, sẽ phụ thuộc vào giá trị ban đầu x 1 .Lx1

Câu trả lời:


6

TL DR; Bạn không thể ước tính kể từ khi L = . Vì vậy, giả định đơn giản hóa không bao giờ có thể thực sự có thể. (Có thể có một số trường hợp, nhưng không phải trong thế giới chung của MCMC). Tuy nhiên, bạn có thể quyết định N sẽ làm cho độ lệch sớm nhỏ.LL=N


Về cơ bản, câu hỏi của bạn tập trung vào "làm thế nào chúng ta có thể ước tính thời gian bị cháy?". Burn-in là hành động vứt bỏ các mẫu ban đầu vì chuỗi Markov chưa hội tụ. Có nhiều chẩn đoán MCMC giúp bạn ước tính thời gian "burn-in", bạn có thể xem đánh giá về chúng ở đây .

Có hai trường thông qua liên quan đến burn-in; cách phổ biến là sử dụng một trong những chẩn đoán đó để quyết định là gì và vứt bỏ các mẫu L , và trường thứ hai thông qua đó, các mẫu L đầu tiên không quan trọng, vì vậy đừng lo lắng về chúng. Charlie Geyer có một lời ca ngợi về điều này mà tôi đồng ý.LLL

Bây giờ, tôi chuyển sang các chi tiết kỹ thuật hơn của câu hỏi của bạn.

Một giả định đơn giản hóa mà bạn đưa ra trong câu hỏi của mình là cuối cùng, (sau các bước ), bộ lấy mẫu sẽ bắt đầu vẽ từ phân phối giới hạn. Vì vậy, các mẫu của bạn sau các bước L là bản vẽ thuần túy, mặc dù tương quan. Điều này là sai sự thật. Nói đúng ra, L . Chuỗi Markov không bao giờ thực sự hội tụ vào phân phối giới hạn trong thời gian hữu hạn. Vì vậy, ước tính LLLLL là gần như vô nghĩa.

Một cách khác để đặt ra câu hỏi này là: là gì mà sau L bước, chuỗi Markov "đủ gần" để phân phối giới hạn. Đây là câu hỏi hầu hết các chẩn đoán cố gắng trả lời. Người ta ngày càng đồng ý rằng các chẩn đoán ở trên nói chung là cực kỳ tự do và có thể chẩn đoán "sự hội tụ" nhiều trước khi cần. Dưới đây là một bài báo cho thấy một số điểm yếu của chẩn đoán.LL

Có gì ở trên yêu cầu người sử dụng để làm thay vì là không lo lắng về , lo lắng về N . Nói chung, người dùng không quan tâm đến phân phối đầy đủ sau, nhưng với số lượng cụ thể. Thông thường đại lượng này là giá trị trung bình của hậu thế, hoặc bất kỳ chức năng nào khác có thể được viết ra dưới dạng kỳ vọng. Đây là nơi phần "Monte Carlo" của MCMC xuất hiện, vì Monte Carlo biểu thị ước tính tích phân với tổng. Vì vậy, nếu X 1 , X 2 , X 3 , ... , X N là chuỗi Markov của bạn (thông báo như thế nào tôi bỏ qua L , vì LLNX1,X2,X3,,XNLL), Và chúng tôi muốn để ước tính sau bình ( ), sau đó ˉ θ N = 1θ

θ¯N=1Ni=1NXi.

Ý tưởng là nếu đủ lớn, thì độ lệch ban đầu của mẫu sẽ không đáng kể. Tất nhiên, nếu giá trị ban đầu nằm cách xa không gian xác suất cao của phân phối giới hạn, người dùng có thể bắt mắt và ném đi một vài mẫu đầu tiên. Điều này khác với ước tính LNL , vì nó không phải là ước tính, mà là sự coi thường có giáo dục đối với các mẫu bị hỏng rõ ràng.

Bây giờ câu hỏi tất nhiên là: nên lớn như thế nào ? Câu trả lời sẽ phụ thuộc vào làm tốt như thế nào chúng ta muốn ước tính θNθ . Nếu chúng tôi muốn một ước tính tuyệt vời, thì chúng tôi muốn nhiều mẫu hơn, nếu ước tính ok đủ, thì chúng tôi có thể ổn với một mẫu nhỏ hơn. Đây cũng chính xác là những gì xảy ra trong các vấn đề thống kê tiêu chuẩn.

Cách chúng ta định lượng "tốt đẹp" của một ước tính, là để suy nghĩ, "những gì chúng ta có thể nói về ?, Sai số Monte Carlo Dưới những điều kiện hợp lý, có trong thực tế, một chuỗi CLT Markov nói rằng như N , đối với bất kỳ phân phối ban đầu (θ¯Nθ)N

N(θ¯Nθ)dNp(0,Σ),

nơi Σ là ma trận hiệp phương sai tiệm cận. Chìa khóa ở đây là kết quả đúng với mọi phân phối ban đầu.θRpΣ

Khi là nhỏ, chúng ta biết rằng ước lượng là tốt. Bài viết này trình bày ý tưởng dừng lại, và câu trả lời của tôi ở đây tóm tắt phương pháp của họ. Các kết quả trong bài báo của họ cũng bất kể phân phối ban đầu của quá trình.Σ/N


Thx cho câu trả lời (1) Tôi biết rằng nên , tôi dứt khoát nói rằng tôi đã được đơn giản hóa. Theo như CLT của bạn, không nên là Σ / n cho sự hội tụ trong phân phối? và cho θ N , được mà tính sau khi thả burn-in giá trị, bởi vì nếu nó là sau khi thả chúng, sau đó phần còn lại vấn đề? (tôi có thể hỏi TL DR nghĩa là gì không?) Cảm ơn vì bài báo, tôi đã đọc chi tiếtLΣ/nθ^N

Cố định một lỗi đánh máy, nó cần phải có được . ˉ q N được tính từ tất cả các mẫu, không có gì đã được giảm xuống. TL DR có nghĩa là "quá dài, không đọc". Tôi quên thêm rằng CLT giữ cho bất kỳ phân phối ban đầu. Tôi sẽ thêm điều đó. Σ/Nθ¯N
Greenparker

X1πg¯n

X1ππ
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.