Điều gì gây ra tự tương quan trong bộ lấy mẫu MCMC?

Khi chạy phân tích Bayes, một điều cần kiểm tra là tự động tương quan các mẫu MCMC. Nhưng tôi không hiểu điều gì gây ra sự tự kỷ này.

Ở đây , họ đang nói rằng

Các mẫu tự tương quan cao [từ MCMC] thường được gây ra bởi sự tương quan mạnh mẽ giữa các biến.

Tôi đang tự hỏi những nguyên nhân khác của các mẫu tự tương quan cao trong MCMC là gì.
Có một danh sách những điều cần kiểm tra khi quan sát tự động tương quan trong một đầu ra JAGS không?
Làm thế nào chúng ta có thể quản lý tự tương quan trong phân tích Bayes? Tôi biết rằng một số người đang nói mỏng, nhưng những người khác nói rằng điều đó thật tệ . Chạy mô hình trong một thời gian dài là một giải pháp khác , không may tốn kém về thời gian và vẫn ảnh hưởng trong một số trường hợp dấu vết của các mẫu trong MCMC. Tại sao một số thuật toán có hiệu quả hơn nhiều trong việc khám phá và không tương quan? Chúng ta có nên thay đổi các giá trị ban đầu cho chuỗi bắt đầu không?

— M. Beausoleil
nguồn

Khi sử dụng thuật toán Markov chuỗi Monte Carlo (MCMC) trong phân tích Bayes, thường mục tiêu là lấy mẫu từ phân phối sau. Chúng tôi sử dụng MCMC khi các kỹ thuật lấy mẫu độc lập khác là không thể (như lấy mẫu từ chối). Tuy nhiên, vấn đề với MCMC là các mẫu kết quả có tương quan với nhau. Điều này là do mỗi mẫu tiếp theo được rút ra bằng cách sử dụng mẫu hiện tại.

Có hai phương pháp lấy mẫu MCMC chính: lấy mẫu Gibbs và thuật toán Metropolis-Hastings (MH).

Tự động tương quan trong các mẫu bị ảnh hưởng bởi rất nhiều thứ. Ví dụ: khi sử dụng thuật toán MH, ở một mức độ nào đó, bạn có thể giảm hoặc tăng tự động tương quan bằng cách điều chỉnh kích thước bước phân phối đề xuất. Tuy nhiên, trong mẫu Gibbs, không thể điều chỉnh như vậy. Tự động tương quan cũng bị ảnh hưởng bởi các giá trị bắt đầu của chuỗi Markov. Nhìn chung có một giá trị bắt đầu tối ưu (chưa biết) dẫn đến sự tự tương quan ít hơn. Đa phương thức phân phối mục tiêu cũng có thể ảnh hưởng lớn đến sự tự tương quan của các mẫu. Do đó, có các thuộc tính của phân phối mục tiêu chắc chắn có thể ra lệnh tự tương quan. Nhưng hầu hết sự tự tương quan thường được quyết định bởi bộ lấy mẫu được sử dụng. Nói rộng ra nếu một bộ lấy mẫu MCMC nhảy xung quanh không gian trạng thái nhiều hơn, nó có thể sẽ có hiện tượng tự tương quan nhỏ hơn.
Tôi không quen thuộc với JAGS.
Nếu bạn đã quyết định chọn bộ lấy mẫu và không có tùy chọn chơi xung quanh với các bộ lấy mẫu khác, thì cách tốt nhất là làm một số phân tích sơ bộ để tìm giá trị khởi đầu tốt và kích cỡ bước. Nói chung, tỉa thưa không được đề xuất vì người ta cho rằng việc vứt bỏ các mẫu sẽ kém hiệu quả hơn so với sử dụng các mẫu tương quan. Một giải pháp phổ quát là chạy bộ lấy mẫu trong một thời gian dài, sao cho Kích thước mẫu hiệu quả (ESS) của bạn lớn. Nhìn vào Rgói mcmcse ở đây . Nếu bạn nhìn vào họa tiết trên trang 8, tác giả đề xuất một phép tính các mẫu hiệu quả tối thiểu mà người ta sẽ cần cho quá trình ước tính của họ. Bạn có thể tìm thấy con số đó cho vấn đề của mình và để chuỗi Markov chạy cho đến khi bạn có nhiều mẫu hiệu quả .

— Công viên xanh
nguồn

Về pha loãng, một xem xét thực tế là có bao nhiêu mẫu dễ làm việc. Nếu bạn cần lấy, ví dụ, 100 triệu mẫu, thì thường rất tiện lợi (về bộ nhớ, v.v.) mỏng để giữ, giả sử, 10.000 mẫu không tương quan thay vì phải làm việc với 100 triệu. Trở nên kém hiệu quả bằng cách làm mỏng (trong khi thậm chí có thể đạt được một chút tiện lợi thực tế) dường như luôn là một điểm tương đối nhỏ đối với tôi so với tất cả những điều thống kê thực sự tồi tệ mà mọi người làm.

— Bjorn