Khoảng cách tối thiểu dự kiến từ một điểm có mật độ khác nhau

Tôi đang xem xét khoảng cách Euclide tối thiểu dự kiến giữa các điểm thống nhất ngẫu nhiên và điểm gốc thay đổi như thế nào khi chúng ta tăng mật độ của các điểm ngẫu nhiên ( điểm trên một đơn vị hình vuông ) xung quanh gốc. Tôi đã cố gắng đưa ra một mối quan hệ giữa hai mô tả như sau:

Expected Min Distance = \frac{1}{2 \sqrt{Density}}

$\text{Expected Min Distance} =\frac{1}{2\sqrt{\text{Density}}}$

Tôi đã nghĩ ra điều này bằng cách chạy một số mô phỏng Monte Carlo trong R và khớp một đường cong bằng tay (mã bên dưới).

Câu hỏi của tôi là : tôi có thể có được kết quả này về mặt lý thuyết chứ không phải thông qua thử nghiệm?

#Stack Overflow example
library(magrittr)
library(ggplot2)


#---------
#FUNCTIONS
#---------
#gen random points within a given radius and given density
gen_circle_points <- function(radius, density) {
  #round radius up then generate points in square with side length = 2*radius
  c_radius <- ceiling(radius)
  coords <- data.frame(
    x = runif((2 * c_radius) ^ 2 * density, -c_radius, c_radius),
    y = runif((2 * c_radius) ^ 2 * density, -c_radius, c_radius)
  )
  return(coords[sqrt(coords$x ^ 2 + coords$y ^ 2) <= radius, ])#filter in circle
}

#Example plot
plot(gen_circle_points(radius = 1,density = 200)) #200 points around origin
points(0,0, col="red",pch=19) #colour origin

#return euclidean distances of points generated by gen_circle_points()
calculate_distances <- function(circle_points) {
  return(sqrt(circle_points$x ^ 2 + circle_points$y ^ 2))
}

#find the smallest distance from output of calculate_distances()
calculate_min_value <- function(distances) {
  return(min(distances))
}


#Try a range of values
density_values <- c(1:100)

expected_min_from_density <- sapply(density_values, function(density) {
  #simulate each density value 1000 times and take an average as estimate for
  #expected minimum distance
  sapply(1:1000, function(i) {
    gen_circle_points(radius=1, density=density) %>%
      calculate_distances() %>%
      calculate_min_value()
  }) %>% mean()
})

results <- data.frame(density_values, expected_min_from_density)

#fit based off exploration
theoretical_fit <- data.frame(density = density_values, 
                              fit = 1 / (sqrt(density_values) * 2))

#plot monte carlo (black) and fit (red dashed)
ggplot(results, aes(x = density_values, y = expected_min_from_density)) +
  geom_line() + 
  geom_line(
    data = theoretical_fit,
    aes(x = density, y = fit),
    color = "red",
    linetype = 2
  )

— Chim Michael
nguồn

Sự phụ thuộc trực tiếp (tiệm cận) vào gốc mật độ nghịch đảo dễ dàng và ngay lập tức từ việc xem xét các đơn vị đo lường, vì vậy câu hỏi duy nhất quan tâm tại sao bội số là

1 / 2.

$1/2.$

— whuber

@whuber Có, tôi nhận thấy các đơn vị xếp hàng độc đáo và có, câu hỏi trở thành: 2 đã đến từ đâu?

— Michael Bird

Các là chiều rộng của hình vuông của bạn.

2

$2$

— whuber

$n$ $(X_i,Y_i)$ $[-1,1]^2.$

$R_i^2 = X_i^2+Y_i^2$

Pr (R_{i} \leq r \leq 1) = \frac{1}{4} π r^{2}

$\Pr(R_i \le r \le 1) = \frac{1}{4} \pi\, r^2$

trong khi (với một chút công việc)

Pr (1 \leq R_{i} \leq r \leq \sqrt{2}) = \frac{1}{4} (π r^{2} + 4 \sqrt{r^{2} - 1} - 4 r^{2} ArcTan (\sqrt{r^{2} - 1})) .

$\Pr(1 \le R_i \le r \le \sqrt{2}) = \frac{1}{4}\left(\pi\, r^2 + 4\sqrt{r^2-1} - 4 r^2 \operatorname{ArcTan}\left(\sqrt{r^2-1}\right)\right).$

Cùng nhau xác định hàm phân phối chung cho tất cả $F$ $R_i.$

Vì các điểm là độc lập, nên khoảng cách từ đó hàm sinh tồn của là $n$ $R_i,$ $\min(R_i)$

S_{n} (r) = (1 - F (r))^{n},

$S_n(r) = (1 - F(r))^n,$

ngụ ý khoảng cách ngắn nhất có nghĩa là

μ (n) = \int_{0}^{\sqrt{2}} S_{n} (r) d r .

$\mu(n) = \int_0^\sqrt{2} S_n(r)\, dr.$

Đối với gần như tất cả diện tích trong tích phân này gần bằng vì vậy chúng tôi có thể ước chừng nó là $n\gg 1,$ $0,$

μ_{approx} (n) = \int_{0}^{1} S_{n} (r) d r = \int_{0}^{1} {(1 - \frac{π}{4} r^{2})}^{n} d r .

$\mu_\text{approx}(n) = \int_0^1S_n(r)\, dr = \int_0^1\left(1 - \frac{\pi}{4}r^2\right)^n\,dr.$

Lỗi không lớn hơn phần tích phân bị bỏ qua, đến lượt nó không lớn hơn

(\sqrt{2} - 1) (1 - F (1))^{n} = (\sqrt{2} - 1) (1 - π / 4)^{n},

$(\sqrt{2}-1)(1-F(1))^n = (\sqrt{2}-1)(1 - \pi/4)^n,$

mà rõ ràng giảm theo cấp số nhân với $n.$

Chúng ta có thể lần lượt xấp xỉ tích phân là

{(1 - \frac{π}{4} r^{2})}^{n} \approx \exp (- \frac{1}{2} \frac{r^{2}}{2 / (n π)}) .

$\left(1 - \frac{\pi}{4}r^2\right)^n \approx \exp\left(-\frac{1}{2} \frac{r^2}{2/(n\pi)}\right).$

Lên đến hằng số chuẩn hóa, đây là hàm mật độ của phân phối Bình thường với giá trị trung bình và phương sai Hằng số chuẩn hóa bị thiếu là $0$ $\sigma^2=2/(n\pi).$

C (n) = \frac{1}{\sqrt{2 π σ^{2}}} = \frac{1}{\sqrt{2 π 2 / (n π)}} = \frac{\sqrt{n}}{2} .

$C(n) = \frac{1}{\sqrt{2\pi \sigma^2}} = \frac{1}{\sqrt{2\pi\ 2 / (n\pi)}} = \frac{\sqrt{n}}{2}.$

Do đó, việc mở rộng tích phân từ đến (thêm lỗi tỷ lệ với ), $1$ $\infty$ $e^{-n}$

μ_{khoảng} (n) \approx \int_{0}^{\infty} e^{- t^{2} / (2 σ^{2})} d t = = \frac{1}{C (n)} \frac{1}{2} = = \frac{1}{\sqrt{n}} .

$\mu_\text{approx}(n) \approx \int_0^\infty e^{-t^2/(2\sigma^2)}\,dt = \frac{1}{C(n)} \frac{1}{2} = \frac{1}{\sqrt{n}}.$

Trong quá trình đạt được xấp xỉ này, ba lỗi đã được thực hiện. Nói chung, chúng có nhiều nhất là lỗi phát sinh khi xấp xỉ bởi Gaussian. $n^{-1},$ $S_n(r)$

Hình này biểu thị lần chênh lệch giữa và lần khoảng cách trung bình ngắn nhất quan sát được trong bộ dữ liệu mô phỏng riêng biệt cho mỗi Vì chúng giảm khi tăng, đây là bằng chứng cho thấy lỗi là $n$ $1$ $\sqrt{n}$ $10^5$ $n.$ $n$ $o(n^{-1}/\sqrt{n}) = o(n^{-3/2}).$

Cuối cùng, hệ số trong câu hỏi xuất phát từ kích thước của hình vuông: $1/2$ mật độ là số điểm trên một đơn vị diện tích và hình vuông có diện tích , từ đó $n,$ $[-1,1]^2$ $4$

2 \sqrt{Tỉ trọng} = = 2 \sqrt{n / 4} = = \sqrt{n} .

$2\sqrt{\text{Density}} = 2\sqrt{n/4} = \sqrt{n}.$

Đây là Rmã cho mô phỏng:

n.sim <- 1e5  # Size of each simulation
d <- 2        # Dimension
n <- 2^(1:11) # Numbers of points in each simulation
#
# Estimate mean distance to the origin for each `n`.
#
y <- sapply(n, function(n.points) {
  x <- array(runif(d*n.points*n.sim, -1, 1), c(d, n.points, n.sim))
  mean(sqrt(apply(colSums(x^2), 2, min)))
})
#
# Plot the errors (normalized) against `n`.
#
library(ggplot2)
ggplot(data.frame(Log2.n = 1:length(n), Error=sqrt(n)* (1 - y * n^(1/d))),
       aes(Log2.n, Error)) + geom_point() + geom_smooth() 
  ylab("Error * n") + ggtitle("Simulation Means")

— whuber
nguồn

Ồ Thật là một câu trả lời! Cảm ơn rất nhiều, điều này là tuyệt vời. Cảm ơn!

— Michael Bird

Xin chào @whuber, tôi đã cố gắng tạo lại của bạn và tôi nhận thấy phương trình của bạn cho không trả về như hiển thị biểu đồ của bạn. Khi tôi tính Tôi đã nhận được cung cấp đường cong bạn cung cấp. Bạn đã làm một lỗi đánh máy?

F (r)

$F(r)$

F (\sqrt{2})

$F(\sqrt{2})$

1

$1$

Pr (1 \leq R_{i} \leq r \leq \sqrt{2})

$\text{Pr}(1 \leq R_i \leq r \leq \sqrt{2})$

π / 4 - r (r ArcCos (1 / r) - \sqrt{1 - 1 / r^{2}})

$\pi/4 - r (r \text{ArcCos}(1/r) - \sqrt{1-1/r^2})$

— Michael Bird

@Michael Cảm ơn bạn, có một lỗi đánh máy - nhưng đó không phải là lỗi mà bạn đề xuất: một trong những " " của tôi phải là " " Tôi đã sửa cái đó.

r

$r$

4

$4$

— whuber

Khoảng cách tối thiểu dự kiến ​​từ một điểm có mật độ khác nhau

Khoảng cách tối thiểu dự kiến từ một điểm có mật độ khác nhau