Tích hợp đô thị - Hastings - tại sao chiến lược của tôi không hiệu quả?

Giả sử tôi có một hàm mà tôi muốn tích hợp Tất nhiên, giả sử về 0 tại các điểm cuối, không có lỗ hổng, chức năng đẹp. Một cách mà tôi đã đấu tranh là sử dụng thuật toán Metropolis-Hastings để tạo danh sách các mẫu từ phân phối tỷ lệ với , thiếu hằng số chuẩn hóa mà tôi sẽ gọi , và sau đó tính toán một số thống kê trên các này : $g(x)$

\int_{- \infty}^{\infty} g (x) d x .

$\int_{-\infty}^\infty g(x) dx.$

g (x)

$g(x)$

x_{1}, x_{2}, \dots, x_{n}

$x_1, x_2, \dots, x_n$

g (x)

$g(x)$

N = = \int_{- \infty}^{\infty} g (x) d x

$N = \int_{-\infty}^{\infty} g(x)dx$

p (x)

$p(x)$

f (x)

$f(x)$

x

$x$

\frac{1}{n} Σ_{Tôi = = 0}^{n} f (x_{Tôi}) \approx \int_{- \infty}^{\infty} f (x) p (x) d x .

$\frac{1}{n} \sum_{i=0}^n f(x_i) \approx \int_{-\infty}^\infty f(x)p(x)dx.$

Vì , tôi có thể thay thế trong để hủy khỏi tích phân, dẫn đến biểu thức có dạng Vì vậy, với điều kiện tích hợp thành dọc theo khu vực đó, tôi sẽ nhận được kết quả , mà tôi chỉ có thể lấy đối ứng để có câu trả lời tôi muốn. Do đó, tôi có thể lấy phạm vi mẫu của mình (để sử dụng hiệu quả nhất các điểm) và để cho mỗi mẫu tôi đã vẽ. Theo cách đó $p(x) = g(x)/N$ $f(x) = U(x)/g(x)$ $g$

\frac{1}{N} \int_{- \infty}^{\infty} \frac{Bạn (x)}{g (x)} g (x) d x = = \frac{1}{N} \int_{- \infty}^{\infty} Bạn (x) d x .

$\frac{1}{N}\int_{-\infty}^{\infty}\frac{U(x)}{g(x)} g(x) dx = \frac{1}{N}\int_{-\infty}^\infty U(x) dx.$

U (x)

$U(x)$

1

$1$

1 / N

$1/N$

r = x_{max} - x_{min}

$r = x_\max - x_\min$

U (x) = 1 / r

$U(x) = 1/r$

U (x)

$U(x)$ ước tính về 0 bên ngoài khu vực nơi các mẫu của tôi không có, nhưng tích hợp thành

1

$1$ trong khu vực đó. Vì vậy, nếu bây giờ tôi lấy giá trị mong đợi, tôi sẽ nhận được:

E [\frac{Bạn (x)}{g (x)}] = = \frac{1}{N} \approx \frac{1}{n} Σ_{Tôi = = 0}^{n} \frac{Bạn (x)}{g (x)} .

$E\left [\frac{U(x)}{g(x)}\right ] = \frac{1}{N} \approx \frac{1}{n} \sum_{i=0}^n \frac{U(x)}{g(x)}.$

Tôi đã thử kiểm tra điều này trong R cho hàm mẫu $g(x) = e^{-x^2}$ . Trong trường hợp này, tôi không sử dụng Metropolis-Hastings để tạo mẫu mà sử dụng xác suất thực tế rnormđể tạo mẫu (chỉ để kiểm tra). Tôi không hoàn toàn nhận được kết quả mà tôi đang tìm kiếm. Về cơ bản, biểu thức đầy đủ của những gì tôi sẽ tính là:

\frac{1}{n (x_{tối đa} - x_{tối thiểu})} Σ_{Tôi = = 0}^{n} \frac{1}{e^{- x_{Tôi}^{2}}} .

$\frac{1}{n(x_{\max} - x_\min)} \sum_{i=0}^n \frac{1}{ e^{-x_i^2}}.$ Điều này trong lý thuyết của tôi sẽ đánh giá là

1 / \sqrt{π}

$1/\sqrt{\pi}$ . Nó tiến gần nhưng chắc chắn nó không hội tụ theo cách mong đợi, tôi có làm gì sai không?

ys = rnorm(1000000, 0, 1/sqrt(2))
r = max(ys) - min(ys)
sum(sapply(ys, function(x) 1/( r * exp(-x^2))))/length(ys)
## evaluates to 0.6019741. 1/sqrt(pi) = 0.5641896

Chỉnh sửa cho CliffAB

Lý do tôi sử dụng phạm vi chỉ là để dễ dàng xác định hàm khác không trong khu vực có điểm của tôi, nhưng tích hợp thành trên phạm vi . Đặc điểm kỹ thuật đầy đủ của chức năng là: Tôi không phải sử dụng làm mật độ đồng nhất này. Tôi có thể đã sử dụng một số mật độ khác tích hợp với , ví dụ mật độ xác suất Tuy nhiên, điều này sẽ làm cho việc tổng hợp các mẫu riêng lẻ $1$ $[-\infty, \infty]$

Bạn (x) = = {\begin{cases} \frac{1}{x_{tối đa} - x_{tối thiểu}} & x_{tối đa} > x > x_{tối thiểu} \\ 0 & nếu không thì. \end{cases}

$U(x) = \begin{cases} \frac{1}{x_\max - x_\min} & x_\max > x > x_\min \\ 0 & \text{otherwise.} \end{cases}$

U (x)

$U(x)$

1

$1$

P (x) = = \frac{1}{\sqrt{π}} e^{- x^{2}} .

$P(x) = \frac{1}{\sqrt{\pi}} e^{-x^2}.$

\frac{1}{n} Σ_{Tôi = = 0}^{n} \frac{P (x)}{g (x)} = = \frac{1}{n} Σ_{Tôi = = 0}^{n} \frac{e^{- x_{Tôi}^{2}} / \sqrt{π}}{e^{- x_{Tôi}^{2}}} = = \frac{1}{n} Σ_{Tôi = = 0}^{n} \frac{1}{\sqrt{π}} = = \frac{1}{\sqrt{π}} .

$\frac{1}{n} \sum_{i=0}^n \frac{P(x)}{g(x)} = \frac{1}{n} \sum_{i=0}^n \frac{e^{-x_i^2}/\sqrt{\pi}}{e^{-x_i^2} } = \frac{1}{n} \sum_{i=0}^n \frac{1}{\sqrt{\pi}} = \frac{1}{\sqrt{\pi}}.$

Tôi có thể thử kỹ thuật này cho các bản phân phối khác tích hợp với . Tuy nhiên, tôi vẫn muốn biết lý do tại sao nó không hoạt động để phân phối đồng đều. $1$

— Mike Flynn
nguồn

Chỉ nhanh chóng xem qua điều này, vì vậy tôi không chắc chắn chính xác lý do tại sao bạn quyết định sử dụng phạm vi (x). Điều kiện là nó hợp lệ, nó cực kỳ kém hiệu quả! Phạm vi của một mẫu có kích thước đó chỉ là về thống kê không ổn định nhất mà bạn có thể thực hiện.

— Vách đá AB

@CliffAB Không có gì đặc biệt đối với tôi khi sử dụng phạm vi, ngoài việc xác định phân phối đồng đều trên khoảng thời gian mà điểm của tôi nằm. Xem các chỉnh sửa.

— Mike Flynn

Tôi sẽ xem xét điều này sau này chi tiết hơn. Nhưng một điều cần xem xét là như thể x là một tập hợp các RV thống nhất, sau đó là , phạm vi . Nhưng nếu x là một tập hợp RV bình thường không suy biến, thì dưới dạng , .

n \to \infty

$n \rightarrow \infty$

(x) \to 1

$(x) \rightarrow 1$

n \to \infty

$n \rightarrow \infty$

range (x) \to \infty

$\text{range}(x) \rightarrow \infty$

— Vách đá AB

@CliffAB bạn có thể đã đúng, tôi nghĩ lý do là giới hạn của tích phân không cố định, và do đó phương sai của công cụ ước tính sẽ không bao giờ hội tụ ...

— Mike Flynn

Đây là một câu hỏi thú vị nhất, liên quan đến vấn đề xấp xỉ hằng số chuẩn hóa của mật độ dựa trên đầu ra MCMC từ cùng mật độ . (Một nhận xét bên lề là giả định chính xác cần thực hiện là có thể tích hợp, về 0 ở vô cực là không đủ.) $g$ $g$ $g$

Theo tôi, mục có liên quan nhất về chủ đề này liên quan đến đề xuất của bạn là một bài viết của Gelfand và Dey (1994, JRSS B ), trong đó các tác giả phát triển một cách tiếp cận rất giống nhau để tìm khi tạo từ . Một kết quả trong bài báo này là, với bất kỳ mật độ xác suất [điều này tương đương với ] của bạn sao cho danh tính sau cho thấy một mẫu từ có thể tạo ra một

\int_{X} g (x) d x

$\int_\mathcal{X} g(x) \,\text{d}x$

p (x) \propto g (x)

$p(x)\propto g(x)$

α (x)

$\alpha(x)$

U (x)

$U(x)$

{x; α (x) > 0} \subset {x; g (x) > 0}

$\{x;\alpha(x)>0\}\subset\{x;g(x)>0\}$

\int_{X} \frac{α (x)}{g (x)} p (x) d x = = \int_{X} \frac{α (x)}{N} d x = = \frac{1}{N}

$\int_\mathcal{X} \dfrac{\alpha(x)}{g(x)}p(x) \,\text{d}x=\int_\mathcal{X} \dfrac{\alpha(x)}{N} \,\text{d}x=\dfrac{1}{N}$

p

$p$ đánh giá không thiên vị của của các ước lượng lấy mẫu quan trọng Rõ ràng, các màn trình diễn (tốc độ hội tụ, sự tồn tại của phương sai, & tc.) của công cụ ước tính không phụ thuộc vào sự lựa chọn của [ mặc dù kỳ vọng của nó không]. Trong khuôn khổ Bayes, một lựa chọn được Gelfand và Dey ủng hộ là lấy , mật độ trước. Điều này dẫn đến trong đó là hàm khả năng, vì

1 / N

$1/N$

\hat{η} = = \frac{1}{n} Σ_{Tôi = = 1}^{n} \frac{α (x_{Tôi})}{g (x_{Tôi})} x_{Tôi} \overset{iid}{~} p (x)

$\hat\eta=\frac{1}{n}\sum_{i=1}^n \dfrac{\alpha(x_i)}{g(x_i)}\qquad x_i\stackrel{\text{iid}}{\sim}p(x)$

\hat{η}

$\hat\eta$

α

$\alpha$

α = π

$\alpha=\pi$

\frac{α (x)}{g (x)} = = \frac{1}{ℓ (x)}

$\dfrac{\alpha(x)}{g(x)} = \dfrac{1}{\ell(x)}$

ℓ (x)

$\ell(x)$

g (x) = π (x) ℓ (x)

$g(x)=\pi(x)\ell(x)$ . Thật không may, kết quả ước lượng là ước lượng trung bình điều hòa , hay còn gọi là điều tồi tệ nhất Monte Carlo ước bao giờ hết bởi Radford Neal, từ Đại học Toronto. Vì vậy, nó không phải lúc nào cũng hoạt động tốt. Hoặc thậm chí hầu như không bao giờ.

\hat{N} = = \frac{n}{Σ_{Tôi = = 1}^{n} 1 / ℓ (x_{Tôi})}

$\hat{N}=\dfrac{n}{\sum_{i=1}^n1\big/\ell(x_i)}$

Ý tưởng của bạn về việc sử dụng phạm vi mẫu của bạn và đồng phục trong phạm vi đó được kết nối với vấn đề trung bình hài hòa: công cụ ước tính này không có phương sai nếu chỉ vì xuất hiện trong tử số (tôi nghi ngờ nó luôn có thể là trường hợp hỗ trợ không giới hạn!) và do đó nó hội tụ rất chậm đến hằng số chuẩn hóa. Chẳng hạn, nếu bạn chạy lại mã của mình nhiều lần, bạn sẽ nhận được các giá trị số rất khác nhau sau 10 lần lặp. Điều này có nghĩa là bạn thậm chí không thể tin tưởng vào độ lớn của câu trả lời. $(\min(x_i),\max(x_i))$ $\exp\{x^2\}$

Một sửa chữa chung cho vấn đề sai vô hạn này là để sử dụng cho mật độ tập trung hơn, sử dụng ví dụ các tứ phân vị của mẫu của bạn , vì sau đó vẫn còn giới hạn thấp hơn trong khoảng thời gian này. $\alpha$ $(q_{.25}(x_i),q_{.75}(x_i))$ $g$

Khi điều chỉnh mã của bạn với mật độ mới này, phép tính gần đúng gần hơn với : $1/\sqrt{\pi}$

ys = rnorm(1e6, 0, 1/sqrt(2))
r = quantile(ys,.75) - quantile(ys,.25)
yc=ys[(ys>quantile(ys,.25))&(ys<quantile(ys,.75))]
sum(sapply(yc, function(x) 1/( r * exp(-x^2))))/length(ys)
## evaluates to 0.5649015. 1/sqrt(pi) = 0.5641896

Chúng tôi thảo luận về phương pháp này một cách chi tiết trong hai bài báo với Darren Wraith và với Jean-Michel Marin .

— Tây An
nguồn