Giải thích công thức cho điểm gần nhất trung bình với nguồn gốc của N mẫu từ bóng đơn vị

Trong các yếu tố của học thống kê , một vấn đề được đưa ra để làm nổi bật các vấn đề với k-nn trong không gian chiều cao. Có điểm dữ liệu được phân bố đồng đều trong một quả bóng đơn vị chiều. $N$ $p$

Khoảng cách trung bình từ điểm gốc đến điểm dữ liệu gần nhất được cho bởi biểu thức:

d (p, N) = {(1 - {(\frac{1}{2})}^{\frac{1}{N}})}^{\frac{1}{p}}

$d(p,N) = \left(1-\left(\frac{1}{2}\right)^\frac{1}{N}\right)^\frac{1}{p}$

Khi , công thức phá vỡ một nửa bán kính của quả bóng và tôi có thể thấy điểm gần nhất tiếp cận đường viền như , do đó làm cho trực giác đằng sau knn bị phá vỡ ở kích thước cao. Nhưng tôi không thể hiểu tại sao công thức lại phụ thuộc vào N. Ai đó có thể vui lòng làm rõ không? $N=1$ $p \rightarrow \infty$

Ngoài ra, cuốn sách còn đề cập đến vấn đề này hơn nữa bằng cách nêu: "... dự đoán khó khăn hơn nhiều so với các cạnh của mẫu đào tạo. Người ta phải ngoại suy từ các điểm mẫu lân cận thay vì nội suy giữa chúng". Đây có vẻ như là một tuyên bố sâu sắc, nhưng tôi dường như không thể hiểu ý nghĩa của nó. Bất cứ ai có thể tua lại?

self-study proof k-nearest-neighbour

— người dùng64773
nguồn

Bạn cần chỉnh sửa phương trình hiển thị của bạn một chút. Có phải số mũ chỉ áp dụng cho đó trong tử số giống như hiện tại hay bạn muốn nó áp dụng cho toàn bộ ?

\frac{1}{N}

$\frac 1N$

1

$1$

\frac{1}{2}

$\frac 12$

— Dilip Sarwate

Nó sẽ giúp phân biệt "hypersphere" (trong là một đa tạp của kích thước ) với "bóng đơn vị" (có kích thước ). Hypersphere là ranh giới của quả bóng. Nếu, như tiêu đề của bạn nói, tất cả các điểm được lấy mẫu từ siêu cầu , thì - theo định nghĩa - tất cả chúng đều có khoảng cách từ gốc tọa độ , khoảng cách trung bình là và tất cả đều gần với điểm gốc.

R^{p}

$\mathbb{R}^p$

p - 1

$p-1$

p

$p$

1

$1$

1

$1$

— whuber

@DilipSarwate Nó được áp dụng cho toàn bộ . Trong cuốn sách có một ví dụ trong đó nên

\frac{1}{2}

$\frac{1}{2}$

N = 500, p = 10

$N=500, p=10$

d (p, N) \approx 0.52

$d(p, N) \approx 0.52$

— user64773

Câu trả lời:

Khối lượng của một hyperball chiều bán kính có tỉ lệ khối lượng để . $p$ $r$ $r^p$

Vì vậy, tỷ lệ của âm lượng nhiều hơn một khoảng cách từ gốc là . $kr$ $\frac{r^p-(kr)^p}{r^p}=1-k^p$

Xác suất mà tất cả điểm được chọn ngẫu nhiên hơn một khoảng cách từ nguồn gốc là . Để có được khoảng cách trung bình đến điểm ngẫu nhiên gần nhất, hãy đặt xác suất này bằng . Vì vậy $N$ $kr$ $\left(1-k^p\right)^N$ $\frac12$

{(1 - k^{p})}^{N} = \frac{1}{2}

$\left(1-k^p\right)^N=\tfrac12$

⟹ k = {(1 - \frac{1}{2^{1 / N}})}^{1 / p} .

$\implies k=\left(1-\tfrac1{2^{1/N}}\right)^{1/p}.$

Trực giác này làm cho một số loại cảm giác: các điểm ngẫu nhiên hơn có, gần gũi hơn bạn mong đợi một nhà hàng gần với nguồn gốc được, vì vậy bạn nên mong đợi là một chức năng giảm của . Ở đây là hàm giảm của , vì vậy là hàm tăng của , và do đó là một hàm giảm của là gốc của nó . $k$ $N$ $2^{1/N}$ $N$ $\tfrac1{2^{1/N}}$ $N$ $1-\tfrac1{2^{1/N}}$ $N$ $p$

— Henry
nguồn

Ah, cách tốt đẹp để nhìn vào nó. Bạn có thể diễn giải lại câu trích dẫn trong câu hỏi thứ hai của tôi không?

— dùng64773

Tôi nghi ngờ có thể gợi ý rằng ở các chiều cao, các điểm cần dự đoán có hiệu quả cách xa dữ liệu huấn luyện, như thể ở rìa của một hình cầu, vì vậy bạn không thực sự nội suy mà là ngoại suy, và vì vậy độ không đảm bảo sẽ lớn hơn nhiều. Nhưng tôi không thực sự biết.

— Henry

Tôi không hiểu - Tôi hiểu tại sao biểu thức này là xác suất cho tất cả các điểm xa hơn kr, nhưng tại sao việc đặt xác suất này thành 1/2 lại cho khoảng cách trung bình ??

— ihadanny

@ihadanny: giá trị đưa ra tỷ lệ bán kính trong đó xác suất tất cả các điểm xa hơn là và do đó xác suất có ít nhất một điểm gần hơn là , vì vậy là trung vị của phân bố khoảng cách của điểm gần nhất.

k = {(1 - \frac{1}{2^{1 / N}})}^{1 / p}

$k=\left(1-\tfrac1{2^{1/N}}\right)^{1/p}$

N

$N$

\frac{1}{2}

$\frac12$

1 - \frac{1}{2} = \frac{1}{2}

$1-\frac12=\frac12$

k r

$kr$

— Henry

Định nghĩa trung vị, một nửa lớn hơn và một nửa nhỏ hơn.

— Grant Izmirlian

Và bây giờ không cần vẫy tay

Đối với bất kỳ chuỗi nào của iid rv's, trong đó là CDF chung
$P (min_{1 \leq i \leq N} Y_{i} > y) = (1 - F (y))^{N},$ $P( \min_{1\le i\le N} Y_i > y ) = (1-F(y))^N,$ $F$
Do đó, nếu chúng ta có iid phân phối đồng đều trong bóng đơn vị theo kích thước , thì nơi là CDF chung của khoảng cách, . Cuối cùng, CDF, , cho một điểm phân bố đồng đều trong quả bóng đơn vị trong ? Xác suất mà điểm nằm trong quả bóng bán kính r trong quả cầu có bán kính đơn vị bằng tỷ lệ thể tích: $N$ $X_i$ $p$
$P (min_{1 \leq i \leq N} | | X_{i} | | > r) = (1 - F (r))^{N},$ $P( \min_{1\le i\le N} ||X_i|| > r ) = (1-F(r))^N,$ $F$ $||X_i||, i=1,2,\ldots,N$ $F$ $R^p$

F (r) = P (| | X_{i} | | \leq r) = C r^{p} / (C 1^{p}) = r^{p}

$F(r) = P ( ||X_i|| \le r ) = C r^p/( C 1^p) = r^p$

Do đó, giải pháp cho

1 / 2 = P (min_{1 \leq i \leq N} | | X_{i} | | > r) = (1 - r^{p})^{N}

$1/2 = P( \min_{1\le i\le N} ||X_i|| > r ) = (1- r^p)^N$

Là

r = (1 - (1 / 2)^{1 / N})^{1 / p} .

$r = (1 - (1/2)^{1/N})^{1/p}.$

Cũng câu hỏi của bạn về sự phụ thuộc vào kích thước mẫu, . Đối với cố định, khi quả bóng lấp đầy với nhiều điểm hơn, tự nhiên khoảng cách tối thiểu đến điểm gốc sẽ trở nên nhỏ hơn. $N$ $p$

Cuối cùng, có một cái gì đó không ổn trong tỷ lệ âm lượng của bạn. Có vẻ như nên là thể tích của quả bóng đơn vị trong . $k$ $R^p$

— Grant Izmirlian
nguồn

Như súc tích nhưng bằng lời:

Chúng tôi muốn tìm khoảng cách trung bình của điểm gần nhất với điểm gốc trong điểm phân bố đồng đều trong quả bóng tại điểm gốc của bán kính đơn vị theo kích thước . Xác suất mà khoảng cách nhỏ nhất vượt quá , (gọi biểu thức đại lượng này [1]) là sức mạnh của xác suất mà một điểm phân phối đồng đều duy nhất vượt quá , vì tính độc lập thống kê. Cái sau là một xác suất trừ đi một điểm phân phối đồng đều duy nhất nhỏ hơn . Cái sau là tỷ lệ thể tích của quả bóng có bán kính với quả bóng có bán kính đơn vị, hoặc . Bây giờ chúng ta có thể viết biểu thức [1] là $N$ $p$ $r$ $N^{th}$ $r$ $r$ $r$ $r^p$

P (min_{1 \leq i \leq N} | | X_{i} | | > r) = (1 - r^{p})^{N} .

$P( \min_{1\le i\le N} ||X_i|| > r ) = (1- r^p)^N.$

Để tìm trung vị của phân phối tối thiểu của khoảng cách, đặt xác suất trên thành và giải cho , thu được câu trả lời. $1/2$ $r$

— Grant Izmirlian
nguồn