Điểm chuẩn hiệu suất cho MCMC


14

Đã có những nghiên cứu quy mô lớn về các phương pháp MCMC so sánh hiệu suất của một số thuật toán khác nhau trên một bộ mật độ thử nghiệm? Tôi đang nghĩ về một cái gì đó tương đương với bài báo của Rios và Sahinidis (2013), đó là một so sánh kỹ lưỡng về một số lượng lớn các trình tối ưu hóa hộp đen không dẫn xuất trên một số loại chức năng kiểm tra.

Đối với MCMC, hiệu suất có thể được ước tính, ví dụ: số lượng mẫu hiệu quả (ESS) trên mỗi đánh giá mật độ hoặc một số số liệu thích hợp khác.

Một vài bình luận:

  • Tôi đánh giá cao hiệu suất đó sẽ phụ thuộc mạnh mẽ vào chi tiết của pdf mục tiêu, nhưng một đối số tương tự (có thể không giống nhau) giữ tối ưu hóa, và dù sao cũng có rất nhiều chức năng điểm chuẩn, bộ, cuộc thi, bài báo, v.v ... liên quan đến tối ưu hóa điểm chuẩn thuật toán.

  • Ngoài ra, sự thật là MCMC khác với tối ưu hóa ở chỗ so sánh đó cần sự chăm sóc và điều chỉnh nhiều hơn từ người dùng. Tuy nhiên, hiện nay có một số phương pháp MCMC yêu cầu ít hoặc không cần điều chỉnh: các phương thức thích ứng trong pha burn-in, trong khi lấy mẫu hoặc các phương thức đa trạng thái (còn gọi là hòa tấu ) (như Emcee ) phát triển nhiều chuỗi tương tác và sử dụng thông tin từ các chuỗi khác để hướng dẫn lấy mẫu.

  • Tôi đặc biệt quan tâm đến việc so sánh giữa các phương pháp tiêu chuẩn và đa trạng thái (hay còn gọi là hòa tấu). Để biết định nghĩa về đa trạng thái, xem Phần 30.6 của cuốn sách MacKay :

x

  • Câu hỏi này bắt nguồn từ đây .

Cập nhật

  • Để có một trải nghiệm thú vị về các phương pháp tập hợp đa trạng thái, hãy xem bài đăng trên blog này của Bob Carpenter trên blog của Gelman và nhận xét của tôi đề cập đến bài đăng CV này.

Câu trả lời:


5

Sau một số tìm kiếm trực tuyến, tôi đã có ấn tượng rằng một chuẩn mực toàn diện về các phương pháp MCMC đã được thiết lập, tương tự như những gì người ta có thể tìm thấy trong tài liệu tối ưu hóa, không tồn tại. (Tôi rất vui khi được sai ở đây.)

Thật dễ dàng để tìm thấy sự so sánh của một vài phương pháp MCMC về các vấn đề cụ thể trong một miền được áp dụng. Điều này sẽ ổn nếu chúng ta có thể tập hợp thông tin này - tuy nhiên, chất lượng của các điểm chuẩn như vậy thường không đủ (ví dụ: do thiếu các số liệu được báo cáo hoặc các lựa chọn thiết kế kém).

Sau đây tôi sẽ đăng những gì tôi tin là những đóng góp có giá trị khi tôi tìm thấy chúng:

  • Nishihara, Murray và Adams, MCMC song song với Lấy mẫu lát cắt hình elip tổng quát , JMLR (2014). Các tác giả đề xuất một phương pháp đa trạng thái mới, GESS và thực hiện so sánh với 6 phương pháp đơn trạng thái và đa trạng thái khác trên 7 hàm kiểm tra. Họ đánh giá hiệu suất như ESS (Cỡ mẫu hiệu quả) mỗi giây và mỗi đánh giá chức năng.

  • SamplerCompare là gói R với mục tiêu điểm chuẩn các thuật toán MCMC - chính xác những gì tôi đã hỏi về câu hỏi ban đầu của mình. Thật không may, gói chỉ chứa một vài chức năng kiểm tra; giấy đi kèm báo cáo không có điểm chuẩn thực tế (chỉ là một ví dụ nhỏ); và dường như không có theo dõi.

Thompson, Madeleine B. "Giới thiệu về SamplerCompare." Tạp chí phần mềm thống kê 43.12 (2011): 1-10 ( liên kết ).

  • Để có một trải nghiệm thú vị về các phương pháp tập hợp đa trạng thái, hãy xem bài đăng trên blog này của Bob Carpenter trên blog của Gelman và nhận xét của tôi đề cập đến bài đăng CV này.

Liên kết thứ hai của bạn đã chết - bạn có thể thay đổi nó thành một liên kết hoạt động không?
Tim

Bạn có thể muốn xem qua bài báo tháng 12 năm 2017 này: Ryan Turner & Brady Neal, Bộ lấy mẫu của bạn thực sự hoạt động tốt như thế nào? Nó dường như cung cấp một giải pháp gọn gàng cho chính xác vấn đề này khi đưa ra một điểm chuẩn tốt cho các thuật toán MCMC.
Carl

2

Tôi đồng ý với đánh giá của bạn rằng không có điểm chuẩn toàn diện nào được thiết lập cho các phương pháp MCMC. Điều này là do mọi bộ lấy mẫu MCMC đều có ưu và nhược điểm, và cực kỳ có vấn đề cụ thể.

Trong cài đặt mô hình Bayes điển hình, bạn có thể chạy cùng một bộ lấy mẫu với tốc độ trộn đa dạng khi dữ liệu khác nhau. Tôi sẽ đi đến mức nói rằng nếu trong tương lai xuất hiện một nghiên cứu điểm chuẩn toàn diện về các bộ lấy mẫu MCMC khác nhau, tôi sẽ không tin tưởng vào kết quả được áp dụng ngoài các ví dụ được hiển thị.

Liên quan đến việc sử dụng ESS để đánh giá chất lượng lấy mẫu, điều đáng nói là ESS phụ thuộc vào số lượng được ước tính từ mẫu. Nếu bạn muốn tìm giá trị trung bình của mẫu, ESS thu được sẽ khác với nếu bạn muốn ước tính lượng tử thứ 25. Phải nói rằng, nếu số lượng lãi được cố định, ESS là một cách hợp lý để so sánh các bộ lấy mẫu. Có lẽ một ý tưởng tốt hơn là ESS trên mỗi đơn vị thời gian.

Một lỗ hổng với ESS là đối với các vấn đề ước tính đa biến, ESS trả về một cỡ mẫu hiệu quả cho từng thành phần riêng biệt, bỏ qua tất cả các mối tương quan chéo trong quá trình ước tính. Trong bài báo này gần đây, một ESS đa biến đã được đề xuất và triển khai theo Rgói mcmcsethông qua chức năng multiESS. Không rõ phương thức này so với ESS của codagói như thế nào , nhưng ngay từ đầu có vẻ hợp lý hơn so với các phương pháp ESS đơn biến.


2
(+1) Cảm ơn câu trả lời. Tôi đồng ý với một số điểm của bạn, nhưng tôi vẫn nghĩ rằng một số thông tin có thể đạt được từ điểm chuẩn như vậy. Làm thế nào một người sử dụng kết quả của các điểm chuẩn như vậy để hướng dẫn các lựa chọn trong tương lai tùy thuộc vào họ - nhưng một số bằng chứng tốt hơn là không có bằng chứng. Điểm tốt về ESS. Theo đa trạng thái, ý tôi là đa trạng thái (hoặc đa chuỗi, nếu bạn thích), không chỉ đơn giản là đa biến - xem trích dẫn từ cuốn sách của MacKay trong câu hỏi ban đầu của tôi.
lacerbi

2
Nói chung, một số bộ lấy mẫu được biết là hoạt động kém đối với các bản phân phối đa phương thức (MH, Gibbs), và một số mẫu không tốt cho hỗ trợ không lồi (Hamiltonian MC). Mặt khác, đối với các vấn đề chiều cao, Hamiltonian MC hoạt động tốt và cho các bản phân phối đa phương thức mô phỏng ủ, v.v ... là tốt. Để thực hiện bất kỳ điểm chuẩn nào , người ta có thể cần xác định các lớp phân phối mục tiêu rộng khác nhau (cấp số mũ, lõm log, v.v.) để các kết quả có thể hiểu được nói chung.
Greenparker

1
Vâng, vâng, đó là toàn bộ quan điểm của việc xây dựng một chuẩn mực cho một lớp các thuật toán. Xem ví dụ này để tối ưu hóa toàn cầu. Rõ ràng một điểm chuẩn cho MCMC không thể chỉ mượn những cái hiện có để tối ưu hóa; cần tập trung vào các tính năng của mật độ mục tiêu cụ thể, phổ biến và đáng quan tâm đối với các vấn đề MCMC, như những vấn đề bạn đã đề cập.
lacerbi
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.