Hamiltonian Monte Carlo (HMC): trực giác và sự biện minh đằng sau một biến động lượng phân bố Gaussian là gì?


8

Tôi đang đọc một bài viết giới thiệu tuyệt vời về HMC của Giáo sư Michael Betancourt, nhưng bị mắc kẹt trong việc hiểu làm thế nào để chúng ta đi về sự lựa chọn phân phối động lượng.

Tóm lược

Ý tưởng cơ bản của HMC là giới thiệu biến động lượng kết hợp với biến mục tiêu . Chúng cùng tạo thành một không gian pha .qpq

Tổng năng lượng của một hệ thống bảo thủ là một hằng số và hệ thống phải tuân theo các phương trình của Hamilton. Do đó, các quỹ đạo trong không gian pha có thể bị phân hủy thành các mức năng lượng , mỗi mức tương ứng với một giá trị năng lượng và có thể được mô tả như một tập hợp các điểm thỏa mãn:E

H-1(E)= ={(q,p)|H(q,p)= =E} .

Chúng tôi muốn ước tính phân phối chung , để bằng cách tích hợp chúng tôi có được phân phối mục tiêu mong muốn . Hơn nữa, có thể được viết tương đương là , trong đó tương ứng với một giá trị cụ thể của năng lượng và là vị trí trên mức năng lượng đó.p π ( q ) π ( q , p ) π ( θ Eπ(q,p)pπ(q)π(q,p)E θ Eπ(θE|E)π(E)EθE

π(q,p)= ={π(p|q)π(q)π(θE|E)π(E),phân hủy vi mô

Đối với một giá trị đã cho của , tương đối dễ biết hơn, vì chúng ta có thể thực hiện tích hợp các phương trình của Hamilton để lấy điểm dữ liệu trên quỹ đạo . Tuy nhiên, là phần khó khăn mà phụ thuộc vào cách chúng ta xác định đà, mà sau đó xác định năng lượng tổng .π ( θ EEπ ( E ) Eπ(θE|E)π(E)E

nhập mô tả hình ảnh ở đây

Câu hỏi

Dường như với tôi rằng những gì chúng ta theo sau là , nhưng thực tế chúng ta có thể ước tính là , dựa trên giả định rằng có thể gần giống với , như được minh họa trong hình 23 của bài báo. Tuy nhiên, những gì chúng tôi thực sự lấy mẫu dường như là .π ( Eπ(E)π ( Eπ(E|q)π ( E ) π ( pπ(E|q)π(E)π(p|q)

Q1 : Có phải vì khi chúng ta biết , chúng ta có thể dễ dàng tính toán và do đó ước tính ?E π ( Eπ(p|q)Eπ(E|q)

Để đưa ra giả định rằng giữ, chúng tôi sử dụng động lượng phân tán Gaussian. Hai lựa chọn được đề cập trong bài báo:π(E)~π(E|q)

π(p|q)={N(p|0,M)Euclidean-Gaussian kinetic energyN(p|0,Σ(q))Reimannian-Gaussian kinetic energy,

Trong đó là hằng số được gọi là số liệu Euclide, hay còn gọi là ma trận khối .D × DMD×D

Trong trường hợp lựa chọn đầu tiên (Euclidean-Gaussian), ma trận khối thực sự độc lập với , vì vậy xác suất chúng tôi đang lấy mẫu thực sự là . Sự lựa chọn động lượng phân phối Gaussian với hiệp phương sai ngụ ý rằng biến mục tiêu là phân phối Gaussian với ma trận hiệp phương sai , vì và cần phải được biến đổi nghịch đảo để giữ cho âm lượng trong không gian pha không đổi .q π ( p ) p M q M - 1 p qMqπ(p)pMqM1pq

Câu 2 : Câu hỏi của tôi là làm thế nào chúng ta có thể mong đợi tuân theo phân phối Gaussian? Trong thực tế có thể là bất kỳ phân phối phức tạp nào.π ( q )qπ(q)

Câu trả lời:


8

Không quá nhiều so với chúng ta sau , chỉ là nếu π ( E )π ( E | q ) không giống nhau thì việc khám phá của chúng ta sẽ bị hạn chế do chúng ta không thể khám phá tất cả các năng lượng có liên quan. Do đó, trong thực tế, ước tính thực nghiệm của π ( E )π ( E | q ) rất hữu ích để xác định bất kỳ giới hạn tiềm năng nào trong khám phá của chúng tôi, đó là động lực cho biểu đồ so sánh và chẩn đoán E-BFMI.π(E)π(E)π(E|q)π(E)π(E|q)

Vậy, chúng ta biết gì về hai bản phân phối? Khi chúng ta tăng tính chiều của phân phối mục tiêu của chúng ta thì sắp xếp theo kiểu có xu hướng trông ngày càng nhiều Gaussian. Nếu thời gian tích hợp của chúng ta đủ dài thì việc khám phá các tập cấp của chúng ta sẽ cân bằng và nếu π ( p | q ) là Gaussian thì π ( E | q ) cũng sẽ có xu hướng ngày càng nhiều Gaussian. π(E)π(p|q)π(E|q)

Do đó, động năng Gaussian-Euclide là điểm khởi đầu tốt nhưng không có nghĩa là luôn luôn tối ưu ! Tôi dành một chút thời gian để cố gắng phù hợp với những người mẫu mà Stan hét lên với tôi về chẩn đoán E-BFMI tồi. Động năng Một Gaussian-Riemann có thể là một cải tiến đáng kể trong nhiều trường hợp là yếu tố quyết định ghi vị trí phụ thuộc vào có thể làm cho π ( E ) nhiều hơn đáng kể Gaussian, nhưng điều này vẫn còn nhiều hơn nghiên cứu được thực hiện để hiểu đầy đủ vấn đề.π(p|q)π(E)


1
Tôi đã cố gắng viết một câu trả lời, nhưng nếu THE Michael Betancourt được xác thực chéo, thì tôi sẽ vui lòng lùi lại :-) chỉ là một ghi chú, "răn đe đăng nhập" rất có thể là một lỗi đánh máy: Tôi cá là bạn có nghĩa là "xác định nhật ký" .
DeltaIV

Tâng bốc để có câu trả lời của @Michael Betancourt :-) Chỉ tò mò, khi bạn nói "Khi chúng ta tăng tính chiều của phân phối mục tiêu của chúng ta thì sắp xếp theo kiểu ngày càng nhiều Gaussian", có bằng chứng lý thuyết hay không nó là một quan sát thực nghiệm? π(E)
cwl

3
@cwl - đó là một đối số tiệm cận tiêu chuẩn. Nếu phân phối đích hội tụ đến phân phối phân phối độc lập với dữ liệu hoặc tham số tăng thì sẽ hội tụ đến c h i 2 , sẽ được xấp xỉ bởi một Gaussian trên một vài chiều. Mặt khác, chúng tôi có xu hướng tiếp cận Hamiltonian Monte Carlo trong thực tế khi mục tiêu phức tạp nên sự không triệu chứng có thể không liên quan đặc biệt. Do đó việc phòng ngừa rủi ro. pTôi(E)chTôi2
Michael Betancourt

Có nó @Michael Betancourt, cảm ơn rất nhiều vì lời giải thích!
cwl
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.