Có một bộ lấy mẫu Monte Carlo / MCMC được triển khai có thể đối phó với cực đại cục bộ của phân bố sau không?

Tôi hiện đang sử dụng một cách tiếp cận bayes để ước tính các tham số cho một mô hình bao gồm một số ODE. Khi tôi có 15 tham số để ước tính, không gian lấy mẫu của tôi là 15 chiều và tìm kiếm phân phối sau của tôi dường như có nhiều cực đại cục bộ bị cô lập bởi các vùng lớn có xác suất rất thấp.

Điều này dẫn đến sự cố trộn lẫn các chuỗi Monte Carlo của tôi vì rất khó có khả năng một chuỗi "nhảy" ra khỏi một mức tối đa cục bộ và vô tình chạm phải một trong các cực đại khác.

Dường như có rất nhiều nghiên cứu trong lĩnh vực này vì nó dễ dàng tìm thấy các bài báo liên quan đến vấn đề này (xem bên dưới), nhưng tìm một triển khai thực tế là khó. Tôi chỉ tìm thấy các gói liên quan đến động lực phân tử, nhưng không suy luận Bayes. Có triển khai các bộ lấy mẫu MC (MC) có khả năng đối phó với cực đại cục bộ bị cô lập ngoài kia không?

Tôi buộc phải làm việc với Matlab vì đó là mô hình ODE của tôi được viết, vì vậy các đề xuất liên quan đến Matlab rất được hoan nghênh ;-). Tuy nhiên, nếu có một "ứng dụng sát thủ" trong một số ngôn ngữ khác, có lẽ tôi có thể thuyết phục PI của mình chuyển đổi ;-).

Tôi hiện đang làm việc với bộ lấy mẫu Monte Carlo bị trì hoãn / thích nghi được viết bởi Haario, Laine et al. và đó cũng là công cụ lấy mẫu duy nhất mà tôi có thể tìm thấy cho đến nay, nó phức tạp hơn thuật toán tiêu chuẩn của Metropolis-Hastings

Cách tiếp cận đáng chú ý dường như là:

EDIT Cập nhật vào 2017-Mar-07 với những gì tôi đã học được trong khi đó

Nhiều chuỗi tương tự có điểm bắt đầu khác nhau

Thích ứng liên chuỗi. Sử dụng ma trận hiệp phương sai theo kinh nghiệm của các mẫu gộp được tạo bởi nhiều chuỗi độc lập để cập nhật ma trận hiệp phương sai của các phân phối đề xuất của chuỗi. (1)

Nhiều chuỗi với sự ủ khác nhau

Nhiệt độ: ~~Một số loại "nhiệt độ" dường như thay đổi cảnh quan phía sau, làm cho việc trộn các chuỗi có thể xảy ra hơn. (Tôi chưa đi sâu vào vấn đề này lắm) (1)~~ Mục đích của quá trình ủ là làm phẳng cảnh quan xác suất (chiều cao) được hình thành bởi phân bố xác suất sau. Nó thường được thực hiện bằng cách lấy xác suất sau cho sức mạnh của , trong đó cảnh quan phía sau được làm phẳng cho (3, tr.298). Điều này có nghĩa là, thay vì tính xác suất sau của trạng thái , dữ liệu đã cho xác suất sau được tôi luyện được tính $1/T$ $T>1$ $p(\theta\mid D)$ $\theta$ $D$

p (θ ∣ D)^{1 / T} \propto {(p (D ∣ θ) \cdot p (θ))}^{1 / T}

$p(\theta\mid D)^{1/T} \propto \left( p(D\mid\theta)\cdot p(\theta)\right)^{1/T}$

cao hơn được chọn, các đỉnh phẳng hơn và rộng hơn trong cảnh quan xác suất trở thành. Do đó, giá trị cao hơn dẫn đến xác suất cao hơn của bộ lấy mẫu để chuyển từ mức tối đa cục bộ này sang mức tối đa khác. Tuy nhiên, không phải là phân phối sau được tìm kiếm nếu . Do đó, chuỗi các mẫu của phân phối đó phải được sử dụng để cho phép lấy mẫu từ sau đó. $T$ $T$ $p(\theta\mid D)^{1/T}$ $T\neq1$ $p(\theta\mid D)$

Các mẫu từ phân phối hậu nghiệm gốc, chưa được xử lý, các mẫu được cung cấp từ phiên bản được tôi luyện có thể được lấy bằng nhiều phương pháp:

Metropolis cùng MCMC Run nhiều chuỗi đồng thời, mỗi người có một giá trị khác nhau nhưng liên tục cho . Chuyển trạng thái của hai chuỗi xác suất. Chỉ sử dụng các mẫu từ chuỗi có cho các ước tính xuôi dòng; các chuỗi khác chỉ đảm bảo rằng tất cả các đỉnh được lấy mẫu. Tham chiếu (4) có một thuật toán song song và trích dẫn một bài báo hội nghị và sách giáo khoa cho ý tưởng (5,6) $T$ $T=1$
MCMC thế giới nhỏ. Sampler chuyển đổi giữa hai đề xuất. Thông thường, một phân phối đề xuất với phương sai nhỏ được sử dụng, hiếm khi một đề xuất có phương sai lớn được sử dụng. Sự lựa chọn giữa hai đề xuất này là ngẫu nhiên. Các đề xuất có phương sai lớn cũng có thể được rút ra từ một chuỗi khác chỉ thực hiện các bước nhảy rất lớn, lấy mẫu càng nhiều càng tốt của không gian mẫu theo kiểu thô. (2.7)

Hamiltonian Carlo Carlo (HMC)

Tôi không biết nhiều về điều đó, nhưng bộ lấy mẫu No-U-Turn (NUTS) từ JAGS dường như sử dụng nó. Xem tài liệu tham khảo. (số 8). Alex Rogozhnikov đã tạo ra một hướng dẫn trực quan về chủ đề này.

Người giới thiệu:

(1) Craiu và cộng sự, 2009: Học hỏi từ hàng xóm của bạn: MCMC thích ứng theo chuỗi và song song khu vực. J Am Stat PGS 104: 488, trang 1454-1466. http://www.jstor.org/ Ổn định / 5959353

(2) Guam và cộng sự, 2012: Thế giới nhỏ MCMC với quá trình ủ: Khoảng cách và khoảng cách quang phổ. https://arxiv.org/abs/1211.4675 ( chỉ trên arXiv )

(3): Brooks và cộng sự. (2011). Cẩm nang của Markov Chain Monte Carlo. Báo chí CRC.

(4): Altekar et al. (2004): Parallel Metropolis kết hợp chuỗi Markov Monte Carlo cho suy luận phát sinh gen của Bayes. Tin sinh học 20 (3) 2004, tr. 40444, http://dx.doi.org/10.1093/bioinformatics/btg427

(5): Geyer CJ (1991) Markov chuỗi khả năng tối đa Monte Carlo. Trong: Keramidas (chủ biên), Khoa học máy tính và Thống kê: Kỷ yếu của Hội nghị chuyên đề lần thứ 23 trên Giao diện . Giao diện Foundation, Trạm Fairfax, trang 156.

(6): Gilks WR và Roberts GO (1996). Các chiến lược để cải thiện MCMC. Trong: Gilks WR, Richardson S và Spiegelhalter (chủ biên) Markov chuỗi Monte Carlo trong Thực hành . Chapman & Hội trường, trang. 89 Gian114.

(7): Quan Y, et al. Chuỗi Markov Monte Carlo trong thế giới nhỏ. Thống kê và tính toán (2006) 16 (2), trang 193-202. http://dx.doi.org/10.1007/s11222-006-6966-6

(8): Hoffmann M và Gelman A (2014): Bộ lấy mẫu không quay đầu: Thiết lập độ dài đường dẫn thích ứng ở Hamiltonian Monte Carlo. Tạp chí nghiên cứu máy học , 15, trang 1351-1381. https://arxiv.org/abs/1111.4246

— bất đắc dĩ
nguồn

Cả hai chiến lược trên đều đặc biệt phù hợp với nhiều tối ưu.

Một lựa chọn tốt hơn là MCMC Evolution khác biệt và các MCMC có nguồn gốc như DREAM. Các thuật toán này hoạt động với một số chuỗi MCMC được trộn lẫn để tạo đề xuất. Nếu bạn có ít nhất một chuỗi trong mỗi tối ưu, chúng sẽ có thể nhảy hiệu quả giữa các tối ưu. Việc triển khai trong R có sẵn tại đây https://cran.r-project.org/web/packages/BayesianTools/index.html

— Florian Hartig
nguồn