Tại sao động lực học Hamilton tốt hơn đề xuất đi bộ ngẫu nhiên trong MCMC trong một số trường hợp?


10

Động lực học Hamilton luôn vượt trội hơn so với bước đi ngẫu nhiên trong thuật toán của Metropolis trong một số trường hợp. Ai đó có thể giải thích lý do bằng những từ đơn giản mà không cần quá nhiều toán học?


1
@JuhoKokkala, nói chung, trong vấn đề kích thước cao, đề xuất đi bộ ngẫu nhiên không có hiệu suất tốt, tuy nhiên, động lực học hamitonial có.
Fly_back

@JuhoKokkala Hiểu biết của tôi về HMC là, chúng tôi nhận được các mẫu có năng lượng H thấp trong hệ động lực hamiltonian, sau đó tôi đưa ra câu đố này rằng tại sao mẫu được đề xuất bởi động lực học của Hamiltonian luôn có thể được chấp nhận.
Fly_back

3
Đầu tháng 11, Andrew Gelman đã đăng một ghi chú về một "bài báo mới tuyệt đẹp" của Michael Betancourt về lý do tại sao HMC tốt hơn MCMC ngẫu nhiên. Quan điểm chính của Gelman là HMC nhanh nhất ít nhất gấp đôi so với các phương pháp cạnh tranh. andrewgelman.com/2016/11/03/ trộm
Mike Hunter

2
Câu hỏi này hơi chưa được xác định rõ ràng, nhưng được đưa ra các câu trả lời được đăng dưới đây, tôi không nghĩ rằng nó quá không rõ ràng để được trả lời. Tôi đang bỏ phiếu để bỏ ngỏ.
gung - Phục hồi Monica

Câu trả lời:


14

Trước hết, hãy để tôi nói rằng tôi không tin rằng tỷ lệ chấp nhận cho HMC (Hamiltonian Monte Carlo) luôn cao hơn thuật toán của Metropolis. Theo ghi nhận của @JuhoKokkala, tỷ lệ chấp nhận của Metropolis là có thể điều chỉnh và tỷ lệ chấp nhận cao không có nghĩa là thuật toán của bạn đang làm tốt công việc khám phá phân phối sau. Nếu bạn chỉ cần sử dụng một phân phối cực kỳ hẹp đề nghị (ví dụ với một rất nhỏ σT(q|q)=N(q,σI)σ), bạn sẽ nhận được tỷ lệ chấp nhận cực kỳ cao, nhưng chỉ vì cơ bản bạn luôn ở cùng một nơi, mà không khám phá phân phối đầy đủ sau.

Điều tôi nghĩ rằng bạn thực sự đang hỏi (và nếu tôi đúng, thì vui lòng chỉnh sửa câu hỏi của bạn cho phù hợp) là lý do tại sao Hamiltonian Monte Carlo có (trong một số trường hợp) hiệu suất tốt hơn so với Metropolis. Với "hiệu suất tốt hơn", ý tôi là, đối với nhiều ứng dụng, nếu bạn so sánh một chuỗi được tạo bởi HMC với chuỗi có độ dài bằng nhau (cùng số lượng mẫu ) được tạo bởi thuật toán Metropolis, chuỗi HMC sẽ đạt trạng thái ổn định sớm hơn so với chuỗi Chuỗi đô thị, tìm thấy giá trị thấp hơn cho khả năng ghi nhật ký âm (hoặc giá trị tương tự, nhưng trong số lần lặp ít hơn), cỡ mẫu hiệu quả nhỏ hơn, tự động lấy mẫu phân rã nhanh hơn với độ trễ, v.v.N

Tôi sẽ cố gắng đưa ra ý tưởng về lý do tại sao điều đó xảy ra, mà không đi sâu vào chi tiết toán học. Vì vậy, trước hết, nhắc lại rằng các thuật toán MCMC nói chung rất hữu ích để tính các tích phân chiều cao (kỳ vọng) của một hàm (hoặc nhiều hàm) đối với mật độ mục tiêu π ( q ) , đặc biệt là khi chúng ta không có cách lấy mẫu trực tiếp từ mật độ đích:fπ(q)

Eπ[f]=Qf(q)π(q)dq1dqd

Trong đó là vectơ của các tham số d phụ thuộc vào fπQ là không gian tham số. Bây giờ, ở kích thước cao, thể tích của không gian tham số đóng góp nhiều nhất cho tích phân ở trên không phải là vùng lân cận của chế độ π ( q ) (nghĩa là không phải là một thể tích hẹp xung quanh ước tính MLE của q ), bởi vì ở đây π ( q ) lớn, nhưng âm lượng rất nhỏ.qdfπQπ(q)qπ(q)

Ví dụ: giả sử bạn muốn tính khoảng cách trung bình của một điểm từ gốc của R d , khi tọa độ của nó là các biến Gaussian độc lập với giá trị trung bình bằng 0 và phương sai đơn vị. Sau đó, tích phân trên trở thành:qRd

Eπ[X]= =Q||q||(2π)-d/2điểm kinh nghiệm(-||q||2/2)dq1Giáo dụcdqd

Bây giờ, mật độ mục tiêu đã rõ ràng là tối đa tại 0. Tuy nhiên, bằng cách thay đổi để tọa độ cầu và giới thiệu r = | | q | | , Bạn có thể thấy rằng các tích phân trở nên tỉ lệ với r d - 1 exp ( - r 2 / 2 ) dπ(q)= =(2π)-d/2điểm kinh nghiệm(-||q||2/2)r= =||q|| . Hàm này rõ ràng có cực đại ở một khoảng cách nào đó so với gốc. Khu vực bên trong Q đóng góp nhiều nhất với giá trị của tích phân được gọi làbộ điển hình, và cho không thể thiếu này tập điển hình là một lớp vỏ hình cầu bán kính R alpha rd-1điểm kinh nghiệm(-r2/2)drQ .Rαd

Bây giờ, người ta có thể chỉ ra rằng, trong điều kiện lý tưởng, chuỗi Markov do MCMC tạo ra trước tiên hội tụ đến một điểm trong tập hợp điển hình, sau đó bắt đầu khám phá toàn bộ tập hợp và cuối cùng tiếp tục khám phá các chi tiết của tập hợp. Khi thực hiện điều này, ước tính MCMC của kỳ vọng sẽ ngày càng chính xác hơn, với độ lệch và phương sai sẽ giảm khi số bước tăng dần.

Tuy nhiên, khi hình học của tập hợp điển hình phức tạp (ví dụ: nếu nó có một đỉnh hai chiều), thì thuật toán Metropolis đi bộ ngẫu nhiên tiêu chuẩn có rất nhiều khó khăn trong việc khám phá các chi tiết "bệnh lý" của tập hợp. Nó có xu hướng nhảy ngẫu nhiên "xung quanh" các khu vực này, mà không khám phá chúng. Trong thực tế, điều này có nghĩa là giá trị ước tính cho tích phân có xu hướng dao động xung quanh giá trị chính xác và làm gián đoạn chuỗi ở một số bước hữu hạn sẽ dẫn đến ước tính sai lệch.

Rd, chính độ dốc của phân phối mục tiêu, hướng chúng ta tới chế độ phân phối, nhưng khu vực xung quanh chế độ không nhất thiết là khu vực đóng góp nhiều nhất cho tích phân ở trên, nghĩa là nó không phải là tập hợp điển hình.

Để có được hướng chính xác, trong HMC, chúng tôi giới thiệu một bộ biến phụ trợ, được gọi là biến động lượng . Một tương tự vật lý có thể giúp đỡ ở đây. Một vệ tinh quay quanh một hành tinh, sẽ chỉ ở trong quỹ đạo ổn định nếu động lượng của nó có giá trị "đúng", nếu không nó sẽ trôi dạt vào không gian mở, hoặc nó sẽ bị kéo về phía hành tinh bởi lực hấp dẫn (ở đây đóng vai trò hấp dẫn độ dốc của mật độ đích, "kéo" về phía chế độ). Theo cùng một cách, các tham số động lượng có vai trò giữ các mẫu mới bên trong bộ điển hình, thay vì để chúng trôi về phía đuôi hoặc về phía chế độ.

Đây là một bản tóm tắt nhỏ của một bài báo rất thú vị của Michael Betancourt về việc giải thích Hamiltonian Monte Carlo mà không cần quá nhiều toán học. Bạn có thể tìm thấy bài báo, chi tiết hơn đáng kể ở đây .

Một điều mà bài báo không đề cập đến đủ chi tiết, IMO, là khi nào và tại sao HMC có thể làm tồi tệ hơn so với việc đi bộ ngẫu nhiên. Điều này không xảy ra thường xuyên (theo kinh nghiệm hạn chế của tôi), nhưng nó có thể xảy ra. Rốt cuộc, bạn giới thiệu độ dốc, giúp bạn tìm đường trong không gian tham số chiều cao, nhưng bạn cũng tăng gấp đôi chiều của vấn đề. Về lý thuyết, điều có thể xảy ra là sự chậm lại do sự gia tăng về chiều đã vượt qua sự tăng tốc được đưa ra bằng cách khai thác độ dốc. Ngoài ra (và điều này được trình bày trong bài báo) nếu bộ điển hình có các vùng có độ cong cao, HMC có thể "vượt quá", nghĩa là, nó có thể bắt đầu lấy mẫu các điểm vô dụng ở rất xa trong đuôi mà không đóng góp gì cho kỳ vọng. Tuy nhiên, điều này gây ra sự mất ổn định của bộ tích hợp đối xứng được sử dụng trong thực tế để thực hiện HMC số. Vì vậy, loại vấn đề này dễ dàng được chẩn đoán.


1
Tôi thấy rằng trong khi tôi đang viết câu trả lời của mình, @DJohnson cũng đã trích dẫn bài báo của Betancourt. Tuy nhiên, tôi nghĩ rằng câu trả lời vẫn có thể hữu ích như một bản tóm tắt về những gì người ta có thể tìm thấy trong bài báo.
DeltaIV

3

Như @JuhoKokkala đã đề cập trong các bình luận, tỷ lệ chấp nhận cao không nhất thiết cho hiệu suất tốt. Tỷ lệ chấp nhận của Metropolis Hastings có thể được tăng lên bằng cách thu hẹp phân phối đề xuất. Nhưng, điều này sẽ khiến các bước nhỏ hơn được thực hiện, khiến mất nhiều thời gian hơn để khám phá phân phối mục tiêu. Trong thực tế, có một sự đánh đổi giữa kích thước bước và tỷ lệ chấp nhận và cần có sự cân bằng phù hợp để có được hiệu suất tốt.

Hamiltonian Monte Carlo có xu hướng vượt trội hơn so với Metropolis Hastings vì nó có thể đạt được nhiều điểm xa hơn với xác suất chấp nhận cao hơn. Vì vậy, câu hỏi là: tại sao HMC có xu hướng có xác suất chấp nhận cao hơn MH cho các điểm ở xa hơn ?

MH gặp khó khăn khi đạt đến các điểm xa vì các đề xuất của nó được thực hiện mà không sử dụng thông tin về phân phối mục tiêu. Phân phối đề xuất thường là đẳng hướng (ví dụ: Gaussian đối xứng). Vì vậy, tại mỗi điểm, thuật toán cố gắng di chuyển một khoảng cách ngẫu nhiên theo một hướng ngẫu nhiên. Nếu khoảng cách là nhỏ so với tốc độ phân phối mục tiêu thay đổi theo hướng đó, thì rất có thể mật độ tại các điểm hiện tại và điểm mới sẽ tương tự nhau, tạo ra ít nhất một cơ hội chấp nhận hợp lý. Trong khoảng cách lớn hơn, phân phối mục tiêu có thể đã thay đổi khá nhiều so với điểm hiện tại. Vì vậy, cơ hội tìm ngẫu nhiên một điểm có mật độ tương tự hoặc (hy vọng) cao hơn có thể là kém, đặc biệt là khi chiều tăng lên. Ví dụ: nếu điểm hiện tại nằm trên một sườn núi hẹp, thì '

Ngược lại, HMC khai thác cấu trúc của phân phối mục tiêu. Cơ chế đề xuất của nó có thể được nghĩ đến bằng cách sử dụng một sự tương tự vật lý, như được mô tả trong Neal (2012). Hãy tưởng tượng một quả bóng trượt trên một bề mặt đồi, không ma sát. Vị trí của puck đại diện cho điểm hiện tại và chiều cao của bề mặt biểu thị nhật ký âm của phân phối mục tiêu. Để có được một điểm đề xuất mới, puck được tạo một động lượng với hướng và độ lớn ngẫu nhiên, và động lực của nó sau đó được mô phỏng khi nó trượt trên bề mặt. Puck sẽ tăng tốc theo hướng xuống dốc và giảm tốc theo hướng lên dốc (thậm chí có thể dừng lại và trượt xuống dốc trở lại). Các quỹ đạo di chuyển ngang dọc theo bức tường của một thung lũng sẽ cong xuống. Vì vậy, cảnh quan tự nó ảnh hưởng đến quỹ đạo và kéo nó về phía các khu vực có xác suất cao hơn. Động lượng có thể cho phép puck lên đỉnh trên những ngọn đồi nhỏ, và cũng có thể vượt qua các lưu vực nhỏ. Vị trí của puck sau một số bước thời gian đưa ra điểm đề xuất mới, được chấp nhận hoặc từ chối sử dụng quy tắc Đô thị tiêu chuẩn. Khai thác phân phối mục tiêu (và độ dốc của nó) là những gì cho phép HMC đạt được các điểm ở xa với tỷ lệ chấp nhận cao.

Đây là một đánh giá tốt:

Neal (2012) . MCMC sử dụng động lực học Hamilton.


0

Như một câu trả lời lỏng lẻo (dường như là những gì bạn đang tìm kiếm) Các phương pháp Hamilton có tính đến đạo hàm của khả năng đăng nhập, trong khi thuật toán MH tiêu chuẩn thì không.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.