Trong các yếu tố của học thống kê , một vấn đề được đưa ra để làm nổi bật các vấn đề với k-nn trong không gian chiều cao. Có điểm dữ liệu được phân bố đồng đều trong một quả bóng đơn vị chiều.
Khoảng cách trung bình từ điểm gốc đến điểm dữ liệu gần nhất được cho bởi biểu thức:
Khi , công thức phá vỡ một nửa bán kính của quả bóng và tôi có thể thấy điểm gần nhất tiếp cận đường viền như , do đó làm cho trực giác đằng sau knn bị phá vỡ ở kích thước cao. Nhưng tôi không thể hiểu tại sao công thức lại phụ thuộc vào N. Ai đó có thể vui lòng làm rõ không?
Ngoài ra, cuốn sách còn đề cập đến vấn đề này hơn nữa bằng cách nêu: "... dự đoán khó khăn hơn nhiều so với các cạnh của mẫu đào tạo. Người ta phải ngoại suy từ các điểm mẫu lân cận thay vì nội suy giữa chúng". Đây có vẻ như là một tuyên bố sâu sắc, nhưng tôi dường như không thể hiểu ý nghĩa của nó. Bất cứ ai có thể tua lại?