Số liệu khoảng cách và lời nguyền của kích thước

Một số nơi tôi đọc một lưu ý rằng nếu bạn có nhiều thông số và bạn cố gắng để tìm một "tương đồng metric" giữa các vectơ, bạn có thể có một "lời nguyền của dimensioality". Tôi tin rằng điều đó có nghĩa là hầu hết các điểm tương đồng sẽ bằng nhau và không cung cấp cho bạn bất kỳ thông tin hữu ích nào. Nói cách khác, hầu hết các vectơ đối tác sẽ có một số điểm khoảng cách trung bình không hữu ích cho việc phân loại hoặc phân cụm, v.v. $(x_1, x_2, \ldots, x_n)$

Bạn có biết nơi tôi có thể tìm hiểu chi tiết hơn về điều đó?

Có số liệu nào chịu ít hơn từ hiệu ứng này?

distance similarities metric

— Gerenuk
nguồn

Câu trả lời:

Một số quan sát cổ điển về khoảng cách trong dữ liệu chiều cao:

K. Beyer, J. Goldstein, R. Ramakrishnan và U. Shaft, ICDT 1999: "Khi nào hàng xóm gần nhất có ý nghĩa?"
CC Aggarwal, A. Hinneburg và DA Keim, ICDT 2001: "Về hành vi đáng ngạc nhiên của các số liệu khoảng cách trong không gian chiều cao"

Một vài nghiên cứu gần đây hơn về vấn đề này, bao gồm những người hàng xóm gần nhất và sự trung tâm:

TÔI Houle, H.-P. Kriegel, P. Kröger, E. Schubert và A. Zimek, SSDBM 2010: "Khoảng cách hàng xóm chia sẻ có thể đánh bại lời nguyền của chiều không?"
T. Bernecker, ME Houle, H.-P. Kriegel, P. Kröger, M. Renz, E. Schubert và A. Zimek, SSTD 2011: "Chất lượng xếp hạng tương tự trong chuỗi thời gian"
N. Tomašev, M. Radovanović, D. Mladenić và M. Ivanović. Tư vấn. KDDM 2011: "Vai trò của sự tập trung trong việc phân cụm dữ liệu chiều cao"
Đừng nhớ những người khác, tìm kiếm "Hubness", đó là quan sát chiều cao của họ

Đây là những điều thú vị, vì chúng chỉ ra một số hiểu lầm phổ biến về lời nguyền của chiều. Về bản chất, họ chỉ ra rằng các kết quả lý thuyết - giả sử dữ liệu là iid - có thể không đúng với dữ liệu có nhiều hơn một phân phối. Các dẫn lời nguyền cho những vấn đề số học, và một sự mất mát của phân biệt đối xử trong một phân phối duy nhất, trong khi nó có thể làm cho nó thậm chí còn dễ dàng hơn để phân biệt hai phân bố được tách tốt.

$A_i\sim \mathcal{N}(0;1)$ $B_i\sim \mathcal{N}(100;1)$

Tôi khuyên bạn nên đọc tác phẩm này của Houle và cộng sự, phần lớn bởi vì nó cho thấy rằng bằng cách tuyên bố "dữ liệu này là chiều cao và vì lời nguyền của chiều không thể phân tích được", bạn có thể làm mọi thứ trở nên quá dễ dàng. Tuy nhiên, đó là một dòng đang được sử dụng ở khắp mọi nơi. "Thuật toán của chúng tôi chỉ hoạt động đối với dữ liệu chiều thấp, vì lời nguyền của chiều." "Chỉ mục của chúng tôi chỉ hoạt động tối đa 10 chiều, vì lời nguyền của chiều." Yadda yadda yadda. Nhiều trong số các tuyên bố này dường như chỉ cho thấy rằng các tác giả như vậy đã không hiểu những gì xảy ra ở chiều cao trong dữ liệu và thuật toán của họ (hoặc cần một cái cớ). Houle và cộng sự. không hoàn toàn giải được câu đố (chưa? đây là khá gần đây), nhưng ít nhất họ cũng xem xét lại nhiều câu nói phổ biến.

Rốt cuộc, nếu tính đa chiều cao là một vấn đề lớn, thì tại sao người khai thác văn bản lại vui vẻ sử dụng các thứ nguyên theo thứ tự 10000-100000, trong khi ở các miền khác, người ta bỏ cuộc chỉ với 10 chiều?!?

$L_p$

Tuy nhiên, Cosine cũng bị ảnh hưởng từ lời nguyền của chiều , như được thảo luận trong:

M. Radovanović, A. Nanopoulos và M. Ivanović, SIGIR 2010 "Về sự tồn tại của các kết quả cố định trong các mô hình không gian vectơ."

— Có QUIT - Anony-Mousse
nguồn

Aggarwal CC, Hinneburg A., Keim, DA (2001), Nhẫn về hành vi đáng ngạc nhiên của các số liệu khoảng cách trong không gian chiều cao
Beyer K., Goldstein J., Ramakrishnan R., Trục U. (1999), ngay khi hàng xóm gần nhất có nghĩa là gì?, Thủ tục hội nghị của ICDE.

— người dùng603
nguồn

Nghe có vẻ thú vị :) Tôi hy vọng tôi có thể có được một bản sao của những điều này. Bạn có biết liệu độ phân giải có tồn tại cho vấn đề này với các số liệu thông thường không?

— Gerenuk

(+1) điều này có vẻ rất thú vị.

— Elvis

@Gerenuk: ý bạn là gì bởi số liệu 'thông thường'? Ngoài ra, cả hai giấy tờ đều có sẵn. trực tuyến, vô duyên, dưới dạng pdf

— user603

L_{k}

$L_k$

L_{k}

$L_k$

Định mức L_p phân số chỉ ẩn vấn đề. Tôi tin rằng kết quả sau đó có xu hướng về một cái gì đó như sự khác biệt thuộc tính tối thiểu, mà đối với một số lượng lớn các chiều trở nên vô nghĩa trong thực tế. Nó chỉ giải quyết vấn đề của những con số ngày càng lớn hơn. Giảm kích thước hoạt động trong một số trường hợp, nhưng hãy xem xét trường hợp khi nó không giúp bạn tiến xa hơn. Sau đó thì sao? Thêm vào đó, giảm kích thước về cơ bản là "640k kích thước nên là đủ cho bất kỳ ai". Văn bản thường trong phạm vi 10 ^ 5. Còn video thì sao?

— Có QUIT - Anony-Mousse

Cũng thế:

Robert J. Durrant, Ata Kabán: Khi nào 'người hàng xóm gần nhất' có ý nghĩa: Một định lý ngược và hàm ý. J. Độ phức tạp 25 (4): 385-397 (2009)
Ata Kabán: Về nhận thức tập trung khoảng cách của các kỹ thuật giảm dữ liệu nhất định. Nhận dạng mẫu 44 (2): 265-277 (2011)
Ata Kabán: Phát hiện không tham số khoảng cách vô nghĩa trong dữ liệu chiều cao. Thống kê và tính toán 22 (2): 375-385 (2012)

— cái rìu
nguồn