Lời nguyền của chiều: phân loại kNN

11

Tôi đang đọc cuốn sách của Kevin Murphy: Machine Learning - Một quan điểm xác suất. Trong chương đầu tiên, tác giả đang giải thích lời nguyền của chiều và có một phần mà tôi không hiểu. Ví dụ, tác giả nêu rõ:

Xem xét các đầu vào được phân phối đồng đều dọc theo một khối đơn vị D-chiều. Giả sử chúng ta ước tính mật độ của các nhãn lớp bằng cách tăng một siêu khối xung quanh x cho đến khi nó chứa phân số mong muốn của các điểm dữ liệu. Độ dài cạnh dự kiến của khối này là . $f$ $e_D(f) = f^{\frac{1}{D}}$

Đó là công thức cuối cùng mà tôi không thể có được. Có vẻ như nếu bạn muốn bao gồm 10% số điểm so với chiều dài cạnh nên là 0,1 dọc theo mỗi chiều? Tôi biết lý luận của tôi là sai nhưng tôi không thể hiểu tại sao.

self-study k-nearest-neighbour high-dimensional

— người dùng42140
nguồn

6

Hãy thử hình dung tình huống trong hai chiều đầu tiên. Nếu tôi có một tờ giấy 1m * 1m và tôi cắt một hình vuông 0,1m * 0,1m ra khỏi góc dưới bên trái, tôi đã không xóa một phần mười tờ giấy, nhưng chỉ một phần trăm .

— David Zhang

13

Đó chính xác là hành vi bất ngờ của khoảng cách trong kích thước cao. Đối với 1 thứ nguyên, bạn có khoảng [0, 1]. 10% số điểm nằm trong một đoạn có độ dài 0,1. Nhưng điều gì xảy ra khi chiều của không gian tính năng tăng lên?

Biểu thức đó cho bạn biết rằng nếu bạn muốn có 10% số điểm đó cho 5 chiều, bạn cần phải có chiều dài cho khối 0,63, trong 10 kích thước 0,79 và 0,98 cho 100 kích thước.

Như bạn thấy, để tăng kích thước, bạn cần nhìn xa hơn để có cùng số điểm. Thậm chí, nói với bạn rằng hầu hết các điểm nằm ở ranh giới của khối lập phương khi số lượng kích thước tăng lên. Đó là điều bất ngờ.

— jpmuc
nguồn

4

Tôi nghĩ rằng điều cần chú ý là biểu hiện

e_{D} (f) = = f^{\frac{1}{D}}

$e_D(f) = f^{\frac{1}{D}}$

là thực sự dốc ngay từ đầu. Điều này có nghĩa là kích thước của cạnh mà bạn sẽ cần bao gồm một phần nhất định của âm lượng sẽ tăng mạnh, đặc biệt khi bắt đầu. tức là cạnh bạn cần sẽ trở nên lớn một cách lố bịch khi tăng. $D$

Để làm cho điều này rõ ràng hơn, hãy nhớ lại cốt truyện mà Murphy thể hiện:

nếu bạn nhận thấy, đối với các giá trị của , độ dốc thực sự lớn và do đó, hàm phát triển thực sự dốc ngay từ đầu. Điều này có thể được đánh giá cao hơn nếu bạn lấy đạo hàm của : $D > 1$ $e_D(f)$

e_{D}^{'} (f) = = \frac{1}{D} f^{\frac{1}{D} - 1} = = \frac{1}{D} f^{\frac{1 - D}{D}}

$e'_D(f) = \frac{1}{D} f^{\frac{1}{D} - 1} = \frac{1}{D} f^{\frac{1 - D}{D}}$

$D > 1$ $1-D < 0$

e_{D}^{'} (f) = = \frac{1}{D} (f^{1 - D})^{\frac{1}{D}}

$e'_D(f) = \frac{1}{D} (f^{1 - D})^{\frac{1}{D}}$

$f$ $x^{-1} = \frac{1}{x}$ $f < 1$ $k$ $N$ $D$ $D$

$f^{1 - D}$ $\frac{1}{D}$

— Charlie Parker
nguồn

2

Vâng, vì vậy nếu bạn có một khối đơn vị, hoặc trong trường hợp của bạn là một dòng đơn vị và dữ liệu được phân phối đồng đều thì bạn phải đi một đoạn dài 0,1 để thu được 10% dữ liệu. Bây giờ khi bạn tăng kích thước, D tăng, làm giảm công suất và f nhỏ hơn 1, sẽ tăng, do đó, nếu D đi đến vô cùng, bạn phải chụp tất cả các khối, e = 1.

— PlumSemPy
nguồn

0

Tôi nghĩ cho khoảng cách kNN đóng một vai trò lớn hơn. Điều gì xảy ra với một khối (siêu) tương tự như những gì xảy ra với khoảng cách giữa các điểm. Khi bạn tăng số lượng kích thước, tỷ lệ giữa khoảng cách gần nhất với khoảng cách trung bình tăng lên - điều này có nghĩa là điểm gần nhất gần bằng điểm trung bình, khi đó nó chỉ có sức mạnh dự đoán hơn một chút so với điểm trung bình. Bài viết này giải thích nó độc đáo

Joel Grus làm rất tốt khi mô tả vấn đề này trong Khoa học dữ liệu từ đầu. Trong cuốn sách đó, ông tính toán khoảng cách trung bình và tối thiểu giữa hai điểm trong một không gian thứ nguyên khi số lượng kích thước tăng lên. Anh ta đã tính 10.000 khoảng cách giữa các điểm, với số lượng kích thước nằm trong khoảng từ 0 đến 100. Sau đó, anh ta tiến hành vẽ khoảng cách trung bình và tối thiểu giữa hai điểm, cũng như tỷ lệ khoảng cách gần nhất với khoảng cách trung bình (Khoảng cách trung bình / Khoảng cách) .

Trong các ô đó, Joel cho thấy tỷ lệ khoảng cách gần nhất với khoảng cách trung bình tăng từ 0 ở 0 chiều, lên tới ~ 0,8 ở 100 chiều. Và điều này cho thấy thách thức cơ bản của chiều khi sử dụng thuật toán lân cận k-gần nhất; khi số lượng kích thước tăng lên và tỷ lệ khoảng cách gần nhất với khoảng cách trung bình đạt tới 1 thì khả năng dự đoán của thuật toán sẽ giảm. Nếu điểm gần nhất gần bằng điểm trung bình, thì nó chỉ có sức mạnh dự đoán hơn một chút so với điểm trung bình.

— David Refaeli
nguồn