Trong bài báo " Khi nào là 'Hàng xóm gần nhất' có ý nghĩa? " Chúng ta đã đọc điều đó,
Chúng tôi chỉ ra rằng trong các điều kiện rộng nhất định (về phân phối dữ liệu và truy vấn hoặc khối lượng công việc), khi chiều tăng lên, khoảng cách đến hàng xóm gần nhất tiếp cận khoảng cách với hàng xóm xa nhất. Nói cách khác, sự tương phản về khoảng cách đến các điểm dữ liệu khác nhau trở nên không tồn tại. Các điều kiện chúng tôi đã xác định trong đó điều này xảy ra rộng hơn nhiều so với giả định kích thước độc lập và phân phối (IID) mà các công việc khác giả định.
Câu hỏi của tôi là, làm thế nào tôi nên tạo một bộ dữ liệu tạo ra hiệu ứng này?
Tôi đã tạo ba điểm, mỗi điểm có 1000 thứ nguyên với các số ngẫu nhiên từ 0-255 cho mỗi thứ nguyên nhưng các điểm tạo khoảng cách khác nhau và không tái tạo những gì được đề cập ở trên. Dường như thay đổi kích thước (ví dụ 10 hoặc 100 hoặc 1000 kích thước) và phạm vi (ví dụ [0,1]) không thay đổi bất cứ điều gì. Tôi vẫn nhận được các khoảng cách khác nhau mà không phải là bất kỳ vấn đề nào đối với các thuật toán phân cụm!
Chỉnh sửa: Tôi đã thử nhiều mẫu hơn, dựa trên các thử nghiệm của tôi khoảng cách giữa các điểm không hội tụ đến bất kỳ số nào, trái lại khoảng cách tối đa và tối thiểu giữa các điểm trở nên rõ ràng hơn. Điều này cũng trái ngược với những gì được viết trong bài đầu tiên của Cần thêm trực giác cho lời nguyền của chiều và cũng nhiều nơi khác cũng tuyên bố điều tương tự như https://en.wikipedia.org/wiki/Clustering_high-dimensional_data#Probols . Tôi vẫn sẽ đánh giá cao nếu ai đó có thể chỉ cho tôi một đoạn mã hoặc tập dữ liệu thực mà hiệu ứng đó tồn tại trong các tình huống thực tế.