Tạo một bộ dữ liệu chiều cao nơi hàng xóm gần nhất trở nên vô nghĩa


7

Trong bài báo " Khi nào là 'Hàng xóm gần nhất' có ý nghĩa? " Chúng ta đã đọc điều đó,

Chúng tôi chỉ ra rằng trong các điều kiện rộng nhất định (về phân phối dữ liệu và truy vấn hoặc khối lượng công việc), khi chiều tăng lên, khoảng cách đến hàng xóm gần nhất tiếp cận khoảng cách với hàng xóm xa nhất. Nói cách khác, sự tương phản về khoảng cách đến các điểm dữ liệu khác nhau trở nên không tồn tại. Các điều kiện chúng tôi đã xác định trong đó điều này xảy ra rộng hơn nhiều so với giả định kích thước độc lập và phân phối (IID) mà các công việc khác giả định.

Câu hỏi của tôi là, làm thế nào tôi nên tạo một bộ dữ liệu tạo ra hiệu ứng này?

Tôi đã tạo ba điểm, mỗi điểm có 1000 thứ nguyên với các số ngẫu nhiên từ 0-255 cho mỗi thứ nguyên nhưng các điểm tạo khoảng cách khác nhau và không tái tạo những gì được đề cập ở trên. Dường như thay đổi kích thước (ví dụ 10 hoặc 100 hoặc 1000 kích thước) và phạm vi (ví dụ [0,1]) không thay đổi bất cứ điều gì. Tôi vẫn nhận được các khoảng cách khác nhau mà không phải là bất kỳ vấn đề nào đối với các thuật toán phân cụm!

Chỉnh sửa: Tôi đã thử nhiều mẫu hơn, dựa trên các thử nghiệm của tôi khoảng cách giữa các điểm không hội tụ đến bất kỳ số nào, trái lại khoảng cách tối đa và tối thiểu giữa các điểm trở nên rõ ràng hơn. Điều này cũng trái ngược với những gì được viết trong bài đầu tiên của Cần thêm trực giác cho lời nguyền của chiều và cũng nhiều nơi khác cũng tuyên bố điều tương tự như https://en.wikipedia.org/wiki/Clustering_high-dimensional_data#Probols . Tôi vẫn sẽ đánh giá cao nếu ai đó có thể chỉ cho tôi một đoạn mã hoặc tập dữ liệu thực mà hiệu ứng đó tồn tại trong các tình huống thực tế.


100 kích thước sẽ được tính là chiều rất cao (so với các ứng dụng trong thế giới thực 2, 3 hoặc có lẽ 4 chiều mà khoảng cách euclide ban đầu được sử dụng cho). Đừng mong đợi nhiều thay đổi giữa 100 và 1000. Khoảng cách là khác nhau, nhưng bao nhiêu?
David Ernst

Khoảng cách là khác nhau theo những cách có ý nghĩa ngay cả đối với 1 triệu kích thước. Bây giờ tôi nghĩ về nó, có lẽ thế hệ số ngẫu nhiên của tôi là vấn đề. Ngay bây giờ tôi chỉ đơn giản là tạo các số ngẫu nhiên trong một phạm vi cụ thể và dành chúng cho từng thứ nguyên nhưng tôi nghĩ một cách tiếp cận chính xác hơn là sử dụng một cái gì đó như phân phối bình thường nhiều biến số để tạo ra các số ngẫu nhiên.
U66

Tôi đã sử dụng phân phối đa biến thông thường của apache phổ biến và vẫn không thể tái tạo hiệu ứng !!!
U66

Câu trả lời:


4

Đọc một số bài viết tiếp theo mới hơn, chẳng hạn như:

Houle, ME, Kriegel, HP, Kröger, P., Schubert, E., & Zimek, A. (2010, tháng 6). Khoảng cách hàng xóm chia sẻ có thể đánh bại lời nguyền của chiều không? . Trong hội nghị quốc tế về quản lý cơ sở dữ liệu khoa học và thống kê (trang 482-500). Mùa xuân Berlin Heidelberg.

Zimek, A., Schubert, E., & Kriegel, HP (2012). Một cuộc khảo sát về phát hiện ngoại lệ không giám sát trong dữ liệu số có chiều cao. Phân tích thống kê và khai thác dữ liệu, 5 (5), 363-387.

Nếu tôi nhớ chính xác, chúng cho thấy các thuộc tính của hiệu ứng tập trung khoảng cách lý thuyết (đã được chứng minh) và những hạn chế tại sao thực tế có thể hành xử rất khác nhau. Nếu những bài viết này không hữu ích, hãy ping tôi và tôi kiểm tra lại các tài liệu tham khảo (chỉ cần nhập những gì tôi nhớ vào Google Scholar, tôi đã không tải xuống các bài báo một lần nữa).

Coi chừng rằng "lời nguyền" không nói lên sự khác biệt về khoảng cách với các nước láng giềng gần nhất và xa nhất là 0; cũng không phải là khoảng cách sẽ hội tụ đến một số. nhưng đúng hơn là sự khác biệt tương đối so với giá trị tuyệt đối trở nên nhỏ. Sau đó, độ lệch ngẫu nhiên có thể khiến hàng xóm được xếp hạng không chính xác.

Trong phần này, đừng bỏ qua phân số, giá trị mong đợi và : d

limdE(distmax(d)distmin(d)distmin(d))0

Xin chào, cảm ơn về thông tin, câu hỏi chính vẫn chưa được trả lời mặc dù chúng ta có thể tạo một mẫu giống với hiệu ứng này như thế nào? Ngoài ra, tôi không hiểu câu này "khác biệt tương đối so với giá trị tuyệt đối" bạn có thể giải thích thêm không?
U66

hmmm ... Tôi nghĩ rằng tôi có thể tái tạo hiệu ứng thành công, điểm nằm trong phép chia (ví dụ: đó là khoảng cách tương đối của (max-min) đến điểm tối thiểu và không phải là khoảng cách đơn giản). Khi tôi tăng kích thước, khoảng cách tương đối trở nên nhỏ hơn. Điều này đúng với nguồn gốc và bất kỳ điểm nào khác trong bộ dữ liệu.
U66

"Khoảng cách tương đối" đề cập chính xác đến bộ phận này. Rõ ràng là các giá trị tuyệt đối không hội tụ đến một hằng số.
Có QUIT - Anony-Mousse

2

Tôi cũng chưa từng nghe về điều này trước đây, vì vậy tôi rất ít phòng thủ, vì tôi đã thấy rằng các bộ dữ liệu thực và tổng hợp ở kích thước cao thực sự không hỗ trợ cho yêu cầu của bài báo.

Kết quả là, điều mà tôi muốn đề xuất, như một nỗ lực đầu tiên, bẩn thỉu, vụng về và có thể không tốt là tạo ra một hình cầu theo chiều bạn chọn (tôi làm như thế này ) và sau đó đặt một truy vấn ở trung tâm Hình cầu.

Trong trường hợp đó, mọi điểm nằm trong cùng một khoảng cách với điểm truy vấn, do đó, Vùng lân cận gần nhất có khoảng cách bằng với Vùng lân cận xa nhất.

Điều này, tất nhiên, độc lập với kích thước, nhưng đó là những gì đã suy nghĩ sau khi nhìn vào các số liệu của bài báo. Nó là đủ để khiến bạn nhìn chằm chằm, nhưng chắc chắn, các bộ dữ liệu tốt hơn có thể được tạo ra, nếu có.


Chỉnh sửa về:

khoảng cách cho mỗi điểm trở nên lớn hơn với nhiều kích thước hơn !!!!

điều này được mong đợi, vì không gian chiều càng cao, không gian càng thưa thớt, do đó khoảng cách càng lớn. Hơn nữa, điều này được mong đợi, nếu bạn nghĩ ví dụ, khoảng cách Euclide, sẽ có được vắt khi kích thước tăng lên.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.