mô phỏng các mẫu ngẫu nhiên với một MLE nhất định

Câu hỏi được xác thực chéo này hỏi về việc mô phỏng một mẫu có điều kiện về việc có một khoản tiền cố định nhắc nhở tôi về một vấn đề được đặt ra cho tôi bởi George Casella .

Đưa ra một mô hình tham số và một mẫu iid từ mô hình này, , MLE của được đưa ra bởi Với giá trị đã cho là , có một cách chung để mô phỏng mẫu iid có điều kiện dựa trên giá trị của MLE ? $f(x|\theta)$ $(X_1,\ldots,X_n)$ $\theta$
$\hat{θ} (x_{1}, \dots, x_{n}) = \arg min \sum_{i = 1}^{n} \log f (x_{i} | θ)$ $\hat{\theta}(x_1,\ldots,x_n)=\arg\min \sum_{i=1}^n \log f(x_i|\theta)$ $\theta$ $(X_1,\ldots,X_n)$ $\hat{\theta}(X_1,\ldots,X_n)$

Ví dụ: lấy phân phối $\mathfrak{T}_5$ , với tham số vị trí $\mu$ , mật độ là

f (x | μ) = = \frac{Γ (3)}{Γ (1 / 2) Γ (5 / 2)} {[1 + (x - μ)^{2} / 5]}^{- 3}

$f(x|\mu)=\dfrac{\Gamma(3)}{\Gamma(1/2)\Gamma(5/2)}\,\left[1+(x-\mu)^2/5\right]^{-3}$ If

(X_{1}, Giáo dục, X_{n}) \overset{iid}{~} f (x | μ)

$(X_1,\ldots,X_n)\stackrel{\text{iid}}{\sim} f(x|\mu)$ làm thế nào chúng ta có thể mô phỏng

(X_{1}, \dots, X_{n})

$(X_1,\ldots,X_n)$ điều kiện trên

\hat{μ} (X_{1}, \dots, X_{n}) = μ_{0}

$\hat{\mu}(X_1,\ldots,X_n)=\mu_0$ ? Trong ví dụ

T_{5}

$\mathfrak{T}_5$ , phân phối của

\hat{μ} (X_{1}, \dots, X_{n})

$\hat{\mu}(X_1,\ldots,X_n)$ không có biểu thức dạng đóng.

— Tây An
nguồn

Một lựa chọn sẽ là sử dụng một biến thể HMC bị ràng buộc như được mô tả trong A Family of MCMC Phương thức trên các biểu thức được xác định rõ ràng bởi Brubaker et al (1). Điều này yêu cầu chúng ta có thể biểu thị điều kiện ước tính khả năng tối đa của tham số vị trí bằng với một số cố định $\mu_0$ như một số ràng buộc tổng thể được xác định ngầm (và khác biệt) $c\left(\lbrace x_i \rbrace_{i=1}^N\right) = 0$ . Sau đó, chúng ta có thể mô phỏng một đối tượng động Hamilton bị ràng buộc với ràng buộc này và chấp nhận / từ chối trong một bước của Metropolis-Hastings như trong tiêu chuẩn HMC.

Khả năng đăng nhập tiêu cực là có đạo hàm riêng thứ nhất và thứ hai đối với tham số vị trí Ước tính khả năng tối đa của sau đó được định nghĩa ngầm là một giải pháp cho

L = = - Σ_{Tôi = = 1}^{N} [đăng nhập f (x_{Tôi} | μ)] = = 3 Σ_{Tôi = = 1}^{N} [đăng nhập (1 + \frac{(x_{Tôi} - μ)^{2}}{5})] + không thay đổi

$\mathcal{L} = -\sum_{i=1}^N \left[ \log f(x_i \,|\, \mu) \right] = 3 \sum_{i=1}^N \left[ \log\left(1 + \frac{(x_i - \mu)^2}{5}\right)\right] + \text{constant}$

μ

$\mu$

\frac{\partial L}{\partial μ} = = 3 Σ_{Tôi = = 1}^{N} [\frac{2 (μ - x_{Tôi})}{5 + (μ - x_{Tôi})^{2}}] và \frac{\partial^{2} L}{\partial μ^{2}} = = 6 Σ_{Tôi = = 1}^{N} [\frac{5 - (μ - x_{Tôi})^{2}}{{(5 + (μ - x_{Tôi})^{2})}^{2}}] .

$\frac{\partial \mathcal{L}}{\partial \mu} = 3 \sum_{i=1}^N \left[ \frac{2(\mu - x_i)}{5 + (\mu - x_i)^2}\right] \quad\text{and}\quad \frac{\partial^2 \mathcal{L}}{\partial \mu^2} = 6 \sum_{i=1}^N \left[\frac{5 - (\mu - x_i)^2}{\left(5 + (\mu - x_i)^2\right)^2}\right].$

μ_{0}

$\mu_0$

c = = Σ_{Tôi = = 1}^{N} [\frac{2 (μ_{0} - x_{Tôi})}{5 + (μ_{0} - x_{Tôi})^{2}}] = = 0 tùy thuộc vào Σ_{Tôi = = 1}^{N} [\frac{5 - (μ_{0} - x_{Tôi})^{2}}{{(5 + (μ_{0} - x_{Tôi})^{2})}^{2}}] > 0.

$c = \sum_{i=1}^N \left[ \frac{2(\mu_0 - x_i)}{5 + (\mu_0 - x_i)^2}\right] = 0 \quad\text{subject to}\quad \sum_{i=1}^N \left[\frac{5 - (\mu_0 - x_i)^2}{\left(5 + (\mu_0 - x_i)^2\right)^2}\right] > 0.$

Tôi không chắc chắn nếu có bất kỳ kết quả nào cho thấy sẽ có một MLE duy nhất cho cho - mật độ không phải là log-lõm trong nên dường như không tầm thường để đảm bảo điều này. Nếu có một giải pháp duy nhất ở trên, thì ngầm định nghĩa một đa tạp chiều được kết nối được nhúng trong tương ứng với tập hợp với MLE cho bằng đến $\mu$ $\lbrace x_i \rbrace_{i=1}^N$ $\mu$ $N - 1$ $\mathbb{R}^N$ $\lbrace x_i \rbrace_{i=1}^N$ $\mu$ $\mu_0$ . Nếu có nhiều giải pháp thì đa tạp có thể bao gồm nhiều thành phần không được kết nối, một số trong đó có thể tương ứng với cực tiểu trong hàm khả năng. Trong trường hợp này, chúng ta sẽ cần có một số cơ chế bổ sung để di chuyển giữa các thành phần không được kết nối (vì động lực mô phỏng thường sẽ bị giới hạn trong một thành phần duy nhất) và kiểm tra điều kiện bậc hai và từ chối di chuyển nếu nó tương ứng với việc di chuyển đến một cực tiểu trong khả năng.

Nếu chúng ta sử dụng để biểu thị vectơ và giới thiệu trạng thái động lượng liên hợp với ma trận khối và Lagrange hệ số nhân cho ràng buộc vô hướng sau đó là giải pháp cho hệ thống ODEs $\boldsymbol{x}$ $\left[ x_1 \dots x_N\right]^{\rm T}$ $\boldsymbol{p}$ $\mathbf{M}$ $\lambda$ $c(\boldsymbol{x})$

\frac{d x}{d t} = = M^{- 1} p, \frac{d p}{d t} = = - \frac{\partial L}{\partial x} - λ \frac{\partial c}{\partial x} tùy thuộc vào c (x) = = 0 và \frac{\partial c}{\partial x} M^{- 1} p = = 0

$\frac{{\rm d}\boldsymbol{x}}{{\rm d}t} = \mathbf{M}^{-1}\boldsymbol{p}, \quad \frac{{\rm d}\boldsymbol{p}}{{\rm d}t} = -\frac{\partial \mathcal{L}}{\partial \mathbf{x}} - \lambda \frac{\partial c}{\partial \boldsymbol{x}} \quad\text{subject to}\quad c(\boldsymbol{x}) = 0 \quad\text{and}\quad \frac{\partial c}{\partial \boldsymbol{x}}\mathbf{M}^{-1}\boldsymbol{p} = 0$ đưa ra điều kiện ban đầu với và , định nghĩa một động lực Hamilton bị ràng buộc vẫn bị giới hạn trong đa tạp ràng buộc, có thể đảo ngược thời gian và bảo toàn chính xác phần tử âm lượng Hamilton và đa tạp. Nếu chúng ta sử dụng một tích hợp symplectic cho hạn chế hệ thống Hamiltonian như SHAKE (2) hoặc Rattle (3), mà chính xác duy trì các hạn chế tại mỗi bước thời gian bằng cách giải quyết cho số nhân Lagrange, chúng ta có thể mô phỏng các động chính xác về phía trước rời rạc timesteps

x (0) = x_{0}, p (0) = p_{0}

$\boldsymbol{x}(0) = \boldsymbol{x}_0,~\boldsymbol{p}(0) = \boldsymbol{p}_0$

c (x_{0}) = 0

$c(\boldsymbol{x}_0) = 0$

{\frac{\partial c}{\partial x} |}_{x_{0}} M^{- 1} p_{0} = 0

$\left.\frac{\partial c}{\partial \boldsymbol{x}}\right|_{\boldsymbol{x}_0}\,\mathbf{M}^{-1}\boldsymbol{p}_0 = 0$

L

$L$

δ t

$\delta t$ từ một số ràng buộc ban đầu thỏa mãn và chấp nhận cặp trạng thái mới được đề xuất với xác suất Nếu chúng ta xen kẽ các cập nhật động lực này với việc lấy lại một phần / toàn bộ mô men từ biên Gaussian của chúng (bị giới hạn trong không gian con tuyến tính được xác định bởi

x, p

$\boldsymbol{x},\,\boldsymbol{p}$

x^{'}, p^{'}

$\boldsymbol{x}',\,\boldsymbol{p}'$

tối thiểu {1, điểm kinh nghiệm [L (x) - L (x^{'}) + \frac{1}{2} p^{T} M^{- 1} p - \frac{1}{2} p^{' T} M^{- 1} p^{'}]} .

$\min\left\lbrace 1, \,\exp\left[ \mathcal{L}(\boldsymbol{x}) - \mathcal{L}(\boldsymbol{x}') + \frac{1}{2}\boldsymbol{p}^{\rm T}\mathbf{M}^{-1}\boldsymbol{p} - \frac{1}{2}\boldsymbol{p}'^{\rm T}\mathbf{M}^{-1}\boldsymbol{p}'\right] \right\rbrace.$

\frac{\partial c}{\partial x} M^{- 1} p = 0

$\frac{\partial c}{\partial \boldsymbol{x}}\mathbf{M}^{-1}\boldsymbol{p} = 0$ ) sau đó điều chỉnh khả năng của việc có nhiều thành phần đa tạp ràng buộc không được kết nối, động lực MCMC tổng thể phải là ergodic và các mẫu trạng thái cấu hình sẽ bao phủ trong phân phối đến mật độ đích bị giới hạn trong đa tạp ràng buộc.

x

$\boldsymbol{x}$

Để xem cách thức hoạt động của HMC bị ràng buộc trong trường hợp ở đây, tôi đã chạy triển khai HMC bị ràng buộc dựa trên bộ tích hợp được mô tả trong (4) và có sẵn trên Github tại đây (tiết lộ đầy đủ: Tôi là tác giả của (4) và chủ sở hữu của kho lưu trữ Github), trong đó sử dụng một biến thể của sơ đồ tích hợp 'trắc địa-BAOAB' được đề xuất trong (5) mà không cần bước ngẫu nhiên Ornstein-Uhlenbeck. Theo kinh nghiệm của tôi, lược đồ tích hợp trắc địa này thường dễ điều chỉnh hơn một chút so với lược đồ RATTLE được sử dụng trong (1) do tính linh hoạt cao hơn của việc sử dụng nhiều bước bên trong nhỏ hơn cho chuyển động trắc địa trên đa tạp ràng buộc. Một máy tính xách tay IPython tạo ra kết quả có sẵn ở đây .

Tôi đã sử dụng , và . Một ban đầu tương ứng với MLE của đã được tìm thấy bằng phương pháp của Newton (với đạo hàm bậc hai được kiểm tra để đảm bảo tìm thấy cực đại của khả năng). Tôi đã chạy một động bị ràng buộc với , xen kẽ với các lần làm mới động lượng đầy đủ cho 1000 cập nhật. Biểu đồ bên dưới hiển thị các dấu vết kết quả trên ba thành phần $N=3$ $\mu=1$ $\mu_0=2$ $\boldsymbol{x}$ $\mu_0$ $\delta t = 0.5$ $L=5$ $\boldsymbol{x}$

Sơ đồ dấu vết cho ví dụ 3D

và các giá trị tương ứng của các đạo hàm bậc nhất và bậc hai của khả năng log âm được hiển thị bên dưới

Lô đất dấu vết phái sinh

từ đó có thể thấy rằng chúng tôi đang ở mức tối đa khả năng đăng nhập cho tất cả các mẫu . Mặc dù không dễ thấy từ các ô theo dõi riêng lẻ, nhưng lấy mẫu nằm trên một đa tạp phi tuyến tính 2D được nhúng trong - hình ảnh động bên dưới hiển thị các mẫu trong 3D $\boldsymbol{x}$ $\boldsymbol{x}$ $\mathbb{R}^3$

Hình ảnh 3D của các mẫu được giới hạn trong đa tạp 2D

Tùy thuộc vào việc giải thích các ràng buộc, có thể cần phải điều chỉnh mật độ mục tiêu theo một số yếu tố Jacobian như được mô tả trong (4). Cụ thể, nếu chúng tôi muốn kết quả phù hợp với giới hạn khi sử dụng phương pháp tương tự ABC để duy trì xấp xỉ ràng buộc bằng cách đề xuất các bước di chuyển không giới hạn trong và chấp nhận nếu , sau đó chúng ta cần nhân mật độ đích với . Trong ví dụ trên tôi không bao gồm điều chỉnh này để các mẫu từ mật độ mục tiêu ban đầu bị giới hạn trong đa tạp ràng buộc. $\epsilon \to 0$ $\mathbb{R}^N$ $|c(\boldsymbol{x})| < \epsilon$ $\sqrt{\frac{\partial c}{\partial \boldsymbol{x}}^{\rm \scriptscriptstyle T}\frac{\partial c}{\partial \boldsymbol{x}}}$

Người giới thiệu

MA Brubaker, M. Salzmann và R. Urtasun. Một họ các phương thức MCMC trên các đa tạp được định nghĩa ngầm. Trong Kỷ yếu Hội thảo quốc tế về Trí tuệ và Thống kê nhân tạo lần thứ 15 , 2012.
http://www.cs.toronto.edu/~mbrubake/projects/AISTATS12.pdf
J.-P. Ryckaert, G. Ciccotti và HJ Berendsen. Tích hợp số phương trình chuyển động của Cartesian của một hệ với các ràng buộc: động lực phân tử của n-ankan. Tạp chí Vật lý tính toán , 1977.
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.399.6868
HC Andersen. RATTLE: Một phiên bản "vận tốc" của thuật toán SHAKE để tính toán động lực học phân tử. Tạp chí Vật lý tính toán , 1983.
http://www.scTHERirect.com/science/article/pii/0021999183900141
MM Graham và AJ Storkey. Suy luận chính xác tiệm cận trong các mô hình không có khả năng. arXiv in sẵn arXiv: 1605.07826v3 , 2016.
https://arxiv.org/abs/1605.07826
B. Leimkuhler và C. Matthews. Động lực phân tử hiệu quả bằng cách sử dụng tích hợp trắc địa và tách dung môi dung môi. Proc. R. Sóc. A. Tập 472. Số 2189. Hội Hoàng gia , 2016.
http://rspa.royalsocietypublishing.org/content/472/2189/20160138.abab

— Matt Graham
nguồn

Rực rỡ và mở ra những quan điểm mới và tươi sáng! Cảm ơn bạn.

— Tây An