Hamiltonian Monte Carlo và không gian tham số rời rạc


13

Tôi mới bắt đầu xây dựng mô hình ở stan ; để xây dựng sự quen thuộc với công cụ này, tôi đang thực hiện một số bài tập trong Phân tích dữ liệu Bayes (tái bản lần 2). Các linh dương nước tập giả định rằng các dữ liệu , với ( N , θ ) chưa biết. Kể từ Hamiltonian Monte Carlo không cho phép các thông số rời rạc, tôi đã tuyên bố N như một thực [ 72 , ) và mã hoá một phân phối nhị thức thực có giá trị bằng cách sử dụng chức năng.n~nhị thức(N,θ)(N,θ)N[72,)lbeta

Một biểu đồ kết quả trông gần giống với những gì tôi tìm thấy bằng cách tính trực tiếp mật độ sau. Tuy nhiên, tôi lo ngại rằng có thể có một số lý do tinh tế mà tôi không nên tin tưởng vào những kết quả này nói chung; do suy luận có giá trị thực trên gán xác suất dương cho các giá trị không nguyên, chúng tôi biết rằng các giá trị này là không thể, vì waterbuck phân đoạn không tồn tại trong thực tế. Mặt khác, kết quả có vẻ ổn, do đó việc đơn giản hóa dường như không ảnh hưởng đến suy luận trong trường hợp này.N

Có bất kỳ nguyên tắc hướng dẫn hoặc quy tắc ngón tay cái nào cho việc mô hình hóa theo cách này hay phương pháp "quảng bá" một tham số rời rạc thành một thực tiễn xấu thực sự?


3
Trên thực tế, nó đã được thực hiện mọi lúc, khi giá trị của tham số rời rạc là "lớn" và sự lan truyền của các giá trị hợp lý mà nó có thể mang lại cũng "lớn" (nhưng có lẽ là "lớn", "lớn" khác không tốt -được xác định.) Bạn thường thấy điều này khi xấp xỉ các biến rời rạc ("phần người sẽ bầu cho ứng cử viên X", được rút ra từ một tập hữu hạn) với các biến liên tục. Dường như với tôi rằng với bạn có khả năng tốt trong phạm vi mà một xấp xỉ liên tục là tốt, trừ khi N θ gần 0 hoặc N . N72NθN
jbowman

θ^

Câu trả lời:


18

Đầu tiên, vui lòng đặt câu hỏi như thế này trong danh sách người dùng của chúng tôi ( http://mc-stan.org/mailing-lists.html ) trong đó chúng tôi thảo luận không chỉ các vấn đề liên quan đến việc triển khai / tối ưu hóa / vv mà còn cả thống kê thực tế và câu hỏi mô hình.

Đối với câu hỏi của bạn, đó hoàn toàn là một cách tiếp cận tốt. Có nhiều cách để biện minh cho nó một cách chặt chẽ hơn (ví dụ, nhìn vào sự khác biệt giữa CDF rời rạc và xấp xỉ liên tục của nó) nhưng về cơ bản miễn là phương sai của bạn lớn hơn một vài lần thì sự rời rạc bị thiếu sẽ không thực sự có ảnh hưởng đến những suy luận tiếp theo.

Kiểu gần đúng này có mặt ở khắp nơi, một ví dụ phổ biến là xấp xỉ phân phối đa thức như là một sản phẩm của các phân phối Poisson độc lập, sau đó được xấp xỉ là phân phối Gaussian.


9
Khoảnh khắc đó khi nào, một năm sau đó, bạn nhận ra rằng những Michael Betancourt đã đăng một câu trả lời cho câu hỏi của bạn ...
Mặt trăng Sycorax nói Khôi phục Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.