Tôi đang cố gắng tìm hiểu hoạt động bên trong của Hamiltonian Monte Carlo (HMC), nhưng không thể hiểu đầy đủ phần này khi chúng ta thay thế sự tích hợp thời gian xác định bằng một đề xuất của Hắc thạch. Tôi đang đọc bài viết giới thiệu tuyệt vời Giới thiệu khái niệm về Hamiltonian Monte Carlo của Michael Betancourt, vì vậy tôi sẽ làm theo cùng một ký hiệu được sử dụng trong đó.
Lý lịch
Mục tiêu chung của Markov Chain Monte Carlo (MCMC) là xấp xỉ phân phối của biến mục tiêu .q
Ý tưởng của HMC là giới thiệu một biến "xung lượng" phụ , kết hợp với biến ban đầu được mô hình hóa là "vị trí". Cặp vị trí động lượng tạo thành một không gian pha mở rộng và có thể được mô tả bằng động lực học Hamilton. Phân phối chung có thể được viết dưới dạng phân rã vi mô:
,
trong đó đại diện cho các tham số trên mức năng lượng , còn được gọi là tập hợp điển hình . Xem hình 21 và hình 22 của bài báo để minh họa.
Quy trình HMC ban đầu bao gồm hai bước xen kẽ sau:
Một bước ngẫu nhiên thực hiện chuyển đổi ngẫu nhiên giữa các mức năng lượng và
Một bước xác định thực hiện tích hợp thời gian (thường được thực hiện thông qua tích hợp số nhảy vọt) dọc theo một mức năng lượng nhất định.
Trong bài báo, người ta lập luận rằng bước nhảy vọt (hoặc tích hợp đối xứng) có các lỗi nhỏ sẽ đưa ra sai lệch số. Vì vậy, thay vì coi đó là một bước xác định, chúng ta nên biến nó thành một đề xuất của Metropolis-Hasting (MH) để thực hiện bước này một cách ngẫu nhiên, và quy trình kết quả sẽ mang lại các mẫu chính xác từ phân phối.
Đề xuất MH sẽ thực hiện các bước của các hoạt động nhảy vọt và sau đó lật đà. Đề xuất sau đó sẽ được chấp nhận với xác suất chấp nhận sau:
Câu hỏi
Câu hỏi của tôi là:
1) Tại sao việc sửa đổi này để biến tích hợp thời gian xác định thành đề xuất MH hủy bỏ sai lệch số để các mẫu được tạo tuân theo chính xác phân phối mục tiêu?
2) Từ quan điểm vật lý, năng lượng được bảo toàn trên một mức năng lượng nhất định. Đó là lý do tại sao chúng ta có thể sử dụng các phương trình của Hamilton:
.
Theo nghĩa này, năng lượng phải không đổi ở mọi nơi trên tập hợp điển hình, do đó phải bằng . Tại sao có sự khác biệt về năng lượng cho phép chúng ta xây dựng xác suất chấp nhận?H ( q L , - p L )