Một số quan sát cổ điển về khoảng cách trong dữ liệu chiều cao:
- K. Beyer, J. Goldstein, R. Ramakrishnan và U. Shaft, ICDT 1999: "Khi nào hàng xóm gần nhất có ý nghĩa?"
- CC Aggarwal, A. Hinneburg và DA Keim, ICDT 2001: "Về hành vi đáng ngạc nhiên của các số liệu khoảng cách trong không gian chiều cao"
Một vài nghiên cứu gần đây hơn về vấn đề này, bao gồm những người hàng xóm gần nhất và sự trung tâm:
- TÔI Houle, H.-P. Kriegel, P. Kröger, E. Schubert và A. Zimek, SSDBM 2010: "Khoảng cách hàng xóm chia sẻ có thể đánh bại lời nguyền của chiều không?"
- T. Bernecker, ME Houle, H.-P. Kriegel, P. Kröger, M. Renz, E. Schubert và A. Zimek, SSTD 2011: "Chất lượng xếp hạng tương tự trong chuỗi thời gian"
- N. Tomašev, M. Radovanović, D. Mladenić và M. Ivanović. Tư vấn. KDDM 2011: "Vai trò của sự tập trung trong việc phân cụm dữ liệu chiều cao"
- Đừng nhớ những người khác, tìm kiếm "Hubness", đó là quan sát chiều cao của họ
Đây là những điều thú vị, vì chúng chỉ ra một số hiểu lầm phổ biến về lời nguyền của chiều. Về bản chất, họ chỉ ra rằng các kết quả lý thuyết - giả sử dữ liệu là iid - có thể không đúng với dữ liệu có nhiều hơn một phân phối. Các dẫn lời nguyền cho những vấn đề số học, và một sự mất mát của phân biệt đối xử trong một phân phối duy nhất, trong khi nó có thể làm cho nó thậm chí còn dễ dàng hơn để phân biệt hai phân bố được tách tốt.
MộtTôi~ N( 0 ; 1 )BTôi~ N( 100 ; 1 )
Tôi khuyên bạn nên đọc tác phẩm này của Houle và cộng sự, phần lớn bởi vì nó cho thấy rằng bằng cách tuyên bố "dữ liệu này là chiều cao và vì lời nguyền của chiều không thể phân tích được", bạn có thể làm mọi thứ trở nên quá dễ dàng. Tuy nhiên, đó là một dòng đang được sử dụng ở khắp mọi nơi. "Thuật toán của chúng tôi chỉ hoạt động đối với dữ liệu chiều thấp, vì lời nguyền của chiều." "Chỉ mục của chúng tôi chỉ hoạt động tối đa 10 chiều, vì lời nguyền của chiều." Yadda yadda yadda. Nhiều trong số các tuyên bố này dường như chỉ cho thấy rằng các tác giả như vậy đã không hiểu những gì xảy ra ở chiều cao trong dữ liệu và thuật toán của họ (hoặc cần một cái cớ). Houle và cộng sự. không hoàn toàn giải được câu đố (chưa? đây là khá gần đây), nhưng ít nhất họ cũng xem xét lại nhiều câu nói phổ biến.
Rốt cuộc, nếu tính đa chiều cao là một vấn đề lớn, thì tại sao người khai thác văn bản lại vui vẻ sử dụng các thứ nguyên theo thứ tự 10000-100000, trong khi ở các miền khác, người ta bỏ cuộc chỉ với 10 chiều?!?
Lp
Tuy nhiên, Cosine cũng bị ảnh hưởng từ lời nguyền của chiều , như được thảo luận trong:
- M. Radovanović, A. Nanopoulos và M. Ivanović, SIGIR 2010 "Về sự tồn tại của các kết quả cố định trong các mô hình không gian vectơ."