Chuỗi Markov Monte Carlo (MCMC) để ước tính khả năng sống tối đa (MLE)


10

Tôi đang đọc một bài báo hội nghị năm 1991 của Geyer được liên kết dưới đây. Trong đó, anh ta dường như trốn tránh một phương pháp có thể sử dụng MCMC cho ước tính tham số MLE

Điều này làm tôi phấn khích vì tôi đã mã hóa các thuật toán BFGS, GA và tất cả các loại phương pháp nhúng may mắn lượn sóng tay khủng khiếp này để tìm cực tiểu toàn cầu cần thiết để trích xuất ước lượng các tham số từ MLE.

Lý do nó làm tôi phấn khích là vì nếu chúng tôi có thể đảm bảo sự hội tụ của MCMC đến một điểm cố định (ví dụ: một tiêu chí đủ sẽ thỏa mãn số dư chi tiết ) thì chúng tôi có thể có được các tham số mà không giảm thiểu MLE.

Do đó, kết luận là điều này cung cấp một phương pháp chung để đạt được cực tiểu toàn cầu, các ràng buộc modulo được áp đặt ở trên và trong bài báo. Có một số thuật toán cho MCMC, ví dụ như HMC được ánh xạ tốt cho các vấn đề MCMC chiều cao và tôi cho rằng chúng sẽ vượt trội hơn các phương pháp giảm độ dốc truyền thống.

Câu hỏi

  1. Tôi có đúng không khi bài báo này cung cấp cơ sở lý thuyết cho việc sử dụng MCMC để có được ước tính tham số từ MLE?

  2. Người ta có thể sử dụng thuật toán MCMC trong một số trường hợp nhất định, như được nêu trong bài báo, để trích xuất các tham số từ MLE bỏ qua nhu cầu cho các phương thức như Thuật toán di truyền và BFGS, v.v.

Giấy

Geyer, CJ (1991). Markov chuỗi khả năng tối đa Monte Carlo . Khoa học máy tính và thống kê: Proc. Triệu chứng thứ 23. Giao diện, 156 ĐÁ163.

trừu tượng

Chuỗi Markov Monte Carlo (ví dụ: thuật toán Metropolis và bộ lấy mẫu Gibbs) là một công cụ chung để mô phỏng các quá trình ngẫu nhiên phức tạp hữu ích trong nhiều loại suy luận thống kê. Các khái niệm cơ bản của chuỗi Markov Monte Carlo được xem xét, bao gồm cả các thuật toán và ước lượng phương sai, và một số phương pháp mới được giới thiệu. Việc sử dụng chuỗi Markov Monte Carlo để ước tính khả năng tối đa được giải thích và hiệu suất của nó được so sánh với ước tính khả năng giả tối đa.

Lưu ý: Phần 1-6 rất nhàm chán và bạn có thể biết chúng nếu bạn đã đạt được điều này. Trong Phần 7, anh ta thấy thú vị nhưng về những gì anh ta nói về việc Monte Monte Tối đa khả năng

Nhiêu tai nguyên hơn

kiểm soát + f cho ăn Geyer


1
Để bạn tham khảo, Rgói glmm ở đây sử dụng Monte Carlo để ước tính khả năng trong GLMM. Gói được viết bởi sinh viên của Geyer. Ngoài ra, gói 'R' 'mcemGLM' ở đây ước tính MLE cho GLMM sử dụng Monte Carlo EM. Gói được viết bởi một sinh viên trong cùng bộ phận với Geyer.
Greenparker

Điều này rất hứa hẹn. Tôi luôn cảm thấy rằng khu vực thống kê này bị hút. Ý tôi là dường như quá lạc hậu đến nỗi một số bộ óc thông minh nhất trên thế giới đang thả những người lem tưởng tượng để đi bộ đến các cực tiểu khác nhau (ví dụ Monte Carlo GAs) để giải quyết những vấn đề này
Alexander McFarlane

1
Bài viết này của Gian hàng và Hobert được coi là bán kết trong lĩnh vực này. Cũng thấy điều này . Không liên quan trực tiếp đến câu hỏi của bạn, nhưng vẫn ở trong cùng một khu phố.
Greenparker

1
Vì tò mò, nếu mục tiêu của bạn là tối ưu hóa một chức năng, tại sao bạn không xem xét các phương pháp hiện đại để tối ưu hóa ngẫu nhiên toàn cầu, không thuyết phục, trái ngược với bài báo MCMC từ năm 1991?
lacerbi

@lacerbi vì tôi là người nâng cấp vật lý lý thuyết và tôi thậm chí không biết rằng toàn bộ lĩnh vực đã tồn tại (cảm ơn!) và thứ hai là vì vấn đề của tôi trong tay cần có sự phân phối phù hợp. Tôi biết MCMC rất rõ và tôi biết MLE rất rõ và tôi có cảm giác họ có thể có một chiếc crossover có thể hữu ích do đó tôi đã phát hiện ra
Alexander McFarlane

Câu trả lời:


6

Nếu tôi hiểu chính xác, bạn rất hào hứng về MCMC trong trường hợp các hàm mục tiêu đa phương thức. Lý do của bạn là các phương thức MCMC tìm kiếm không gian tham số toàn cầu, thay vì chỉ chụp ở chế độ gần nhất và dừng lại.

Mặc dù về mặt lý thuyết là đúng, trong thực tế, MCMC thường hành xử hơi giống với các phương pháp leo đồi: một khi họ tìm thấy chế độ cục bộ, họ thường ở quanh chế độ đó. Không giống như các phương pháp leo đồi, có một khả năng tích cực là họ sẽ rời khỏi chế độ, vì vậy về mặt lý thuyết, nó sẽ khám phá không gian toàn cầu nếu để chạy đủ lâu. Tuy nhiên, đối với hầu hết các bộ lấy mẫu, xác suất này cực kỳ nhỏ đến mức không hợp lý để chạy chuỗi đủ lâu để có bất kỳ đảm bảo rằng bộ lấy mẫu sẽ khám phá đúng không gian toàn cầu.

Tất nhiên, có những người lấy mẫu cố gắng khắc phục điều này bằng cách cố gắng thực hiện các bước ngoại lệ không thường xuyên (nghĩa là xem liệu nó có thể thoát khỏi chế độ cục bộ không). Nhưng tôi không nghĩ rằng các bộ lấy mẫu này sẽ hoàn toàn cạnh tranh, liên quan đến tối ưu hóa, với các phương pháp tối ưu hóa tiêu chuẩn để khám phá các bề mặt đa phương thức (ví dụ như hạt bụi, v.v.).


wrt thoát khỏi cực tiểu địa phương, có một nhóm các thói quen MCMC (ví dụ này ) dựa trên các nguyên tắc Hamilton (từ Vật lý) có vẻ hợp lý trong việc điều hướng các không gian đa phương thức này. Nhìn vào hồ sơ của bạn, đánh giá cao đây là lĩnh vực nghiên cứu của bạn và trên thực tế câu hỏi của tôi xuất hiện trong một ánh sáng tương tự như "lùm xùm" xã hội của bạn . Tôi không quen thuộc với các phương pháp nhưng với tư cách là một chuyên gia, bạn có nghĩ rằng phương pháp MCMC được mô tả ở trên sẽ có bất kỳ giá trị nào không?
Alexander McFarlane

@AlexanderMcFarlane: không chắc chắn tôi sẽ tự gọi mình là "chuyên gia" về MCMC, nhưng đã có một số tiếp xúc chuyên nghiệp (xem r-nimble.org, một dự án tôi đã làm trong một thời gian). Vì vậy, hãy đưa ra lời khuyên của tôi với một hạt muối. Điều đó nói rằng, tôi sẽ không sử dụng các phương pháp MCMC chung chung, chẳng hạn như đi bộ ngẫu nhiên MH, cho những gì bạn muốn. Các trình lấy mẫu tích cực cố gắng khám phá các giới hạn của không gian xác suất có thể gặp nhiều may mắn hơn (paywall cho liên kết của bạn, vì vậy không có nhận xét nào cho dù nó có đáp ứng các tiêu chí hay không).
Vách đá AB

0

MCMC thường không hội tụ đến một điểm cố định. Hội tụ là phân phối cố định của chuỗi Markov. Các bản vẽ là khác nhau, nhưng, lỏng lẻo, phân phối chúng được rút ra từ cố định.

Các phương pháp MCMC thường gặp phải các vấn đề tương tự như các phương pháp tối ưu hóa khác. Ví dụ, thật dễ dàng để thiết kế các chuỗi hiếm khi thoát khỏi cực tiểu địa phương. Có cả một tài liệu về các thủ thuật để giải quyết các vấn đề như vậy cho các mô hình khác nhau.

Điều đó đã nói và để trả lời cho câu hỏi thứ hai của bạn, đây là một cách nhanh chóng và bẩn thỉu MCMC có thể được sử dụng để ước tính tham số:

  1. Chạy chuỗi, tạo mẫu tham số.
  2. Lấy khả năng theo từng mẫu của các tham số.
  3. So sánh khả năng của các mẫu MCMC với MLE yêu thích của bạn.
  4. Nếu bất kỳ mẫu MCMC nào hoạt động tốt hơn, thì đó thực sự không phải là MLE toàn cầu.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.