Khoảng cách Euclide thường không tốt cho dữ liệu thưa thớt?


72

Tôi đã thấy ở đâu đó rằng khoảng cách cổ điển (như khoảng cách Euclide) trở nên phân biệt đối xử yếu khi chúng ta có dữ liệu đa chiều và thưa thớt. Tại sao? Bạn có một ví dụ về hai vectơ dữ liệu thưa thớt trong đó khoảng cách Euclide không hoạt động tốt không? Trong trường hợp này chúng ta nên sử dụng sự tương tự?


1
Bài viết này cũng có thể hữu ích. Trong bài viết này, các tác giả giải thích vấn đề tương tự cosin trong dữ liệu chiều cao và đề xuất một phép đo tương tự mới để giảm bớt vấn đề này. Tạp chíofbigdata.springeropen.com/articles/10.1186/ từ
Sahar

Câu trả lời:


33

Dưới đây là một ví dụ đồ chơi đơn giản minh họa hiệu ứng của kích thước trong vấn đề phân biệt đối xử, ví dụ như vấn đề bạn gặp phải khi bạn muốn nói nếu có gì đó được quan sát hoặc nếu chỉ quan sát được hiệu ứng ngẫu nhiên (vấn đề này là một vấn đề kinh điển trong khoa học).

Heuristic. Vấn đề quan trọng ở đây là định mức Euclidian có tầm quan trọng như nhau đối với bất kỳ hướng nào. Điều này cấu thành sự thiếu trước và như bạn chắc chắn biết ở chiều cao không có bữa ăn trưa miễn phí (nghĩa là nếu bạn không có ý tưởng trước về những gì bạn đang tìm kiếm, thì không có lý do gì mà một số tiếng ồn sẽ không giống như bạn tìm kiếm, đây là tautology ...).

Tôi muốn nói rằng đối với bất kỳ vấn đề nào, có một giới hạn thông tin cần thiết để tìm ra thứ gì đó ngoài tiếng ồn. Giới hạn này có liên quan bằng cách nào đó với "kích thước" của khu vực bạn đang cố gắng khám phá liên quan đến mức độ "tiếng ồn" (tức là mức độ nội dung không chính xác).

Ở chiều cao nếu bạn có trước tín hiệu của mình thưa thớt thì bạn có thể loại bỏ (tức là phạt) vectơ không thưa thớt bằng một số liệu lấp đầy không gian bằng vectơ thưa hoặc bằng cách sử dụng kỹ thuật ngưỡng.

Khung Giả sử rằng là một vectơ gaussian với trung bình và hiệp phương sai đường chéo ( được biết) và bạn muốn kiểm tra giả thuyết đơn giảnv σ tôi d σξνσTôiCười mở miệngσ

θ R n θ

H0:ν= =0,VSHθ:ν= =θ
(đối với một ) không nhất thiết phải được biết trước.θRviết sai rồiθ

Kiểm tra thống kê với năng lượng . Trực giác bạn chắc chắn có là một ý tưởng tốt để đánh giá định mức / năng lượng của bạn quan sátξđể xây dựng một thống kê kiểm tra. Trên thực tế bạn có thể xây dựng một tiêu chuẩn trung tâm (theoH0) phiên bảnTncủa năng lượngTn=Σiξ 2 i -σ2Eviết sai rồi= =1viết sai rồiΣTôi= =1viết sai rồiξTôi2ξH0Tviết sai rồi . Điều đó làm cho một khu vực quan trọng ở cấp độαcó dạng{Tnv1-α}chov1-αđược chọn tốtTviết sai rồi= =ΣTôiξTôi2-σ22viết sai rồiσ4α{Tviết sai rồiv1-α}v1-α

Sức mạnh của bài kiểm tra và kích thước. Trong trường hợp này, đây là một bài tập xác suất dễ dàng để hiển thị công thức sau đây cho sức mạnh của bài kiểm tra của bạn:

vớiZmột khoảnnbiến ngẫu nhiên iid vớiE[Z]=0Vmộtr(Z)=1.

Pθ(Tv1-α)= =P(Zv1-α1+2θ22/(viết sai rồiσ2)-θ222viết sai rồiσ4+2σ2θ22/(viết sai rồiσ2))
Zviết sai rồiE[Z]= =0Vmộtr(Z)= =1

Điều này có nghĩa rằng sức mạnh của thử nghiệm của bạn được tăng năng lượng của tín hiệu của bạn và giảm n . Thực tế, điều này có nghĩa là khi bạn tăng kích thước n của vấn đề nếu nó không tăng cường độ tín hiệu đồng thời thì bạn đang thêm thông tin không chính xác vào quan sát của mình (hoặc bạn đang giảm tỷ lệ thông tin hữu ích trong thông tin bạn có): điều này giống như thêm tiếng ồn và làm giảm sức mạnh của bài kiểm tra (nghĩa là nhiều khả năng bạn sẽ nói không có gì được quan sát trong khi thực sự có gì đó).θ22viết sai rồiviết sai rồi

Hướng tới một bài kiểm tra với một thống kê ngưỡng. Nếu bạn không có nhiều năng lượng trong tín hiệu của mình nhưng nếu bạn biết một phép biến đổi tuyến tính có thể giúp bạn tập trung năng lượng này vào một phần nhỏ của tín hiệu, thì bạn có thể xây dựng một thống kê kiểm tra chỉ đánh giá năng lượng cho nhỏ một phần tín hiệu của bạn. Nếu bạn biết trước nơi nó được tập trung (ví dụ bạn được biết đến có thể không phải là tần số cao trong tín hiệu của bạn) sau đó bạn có thể có được một sức mạnh trong các thử nghiệm trước với thay thế bởi một số ít và θ 2 2 gần như giống nhau. .. Nếu bạn không biết trước, bạn phải ước tính điều này dẫn đến các bài kiểm tra ngưỡng nổi tiếng.viết sai rồiθ22

Lưu ý rằng đối số này chính xác là ở gốc nhiều bài báo như

  • Một Antoniadis, F Abramovich, T Sapatinas và B Vidakovic. Phương pháp Wavelet để thử nghiệm trong phân tích chức năng của các mô hình phương sai. Tạp chí quốc tế về Wavelets và các ứng dụng của nó, 93: 1007 trận1021, 2004.
  • MV Burnashef và Begmatov. Về một vấn đề phát hiện tín hiệu dẫn đến phân phối ổn định. Lý thuyết xác suất và ứng dụng của nó, 35 (3): 556 1955, 1990.
  • Y. Baraud. Tốc độ tối thiểu không triệu chứng của kiểm tra trong phát hiện tín hiệu. Bernoulli, 8: 577 216060, 2002.
  • J Fan. Kiểm tra tầm quan trọng dựa trên ngưỡng sóng con và cắt ngắn của neyman. JASA, 91: 674 Từ688, 1996.
  • J. Fan và SK Lin. Kiểm tra ý nghĩa khi dữ liệu là các đường cong. JASA, 93: 1007 trận1021, 1998.
  • V. Spokoiny. Kiểm tra giả thuyết thích nghi bằng cách sử dụng wavelet. Biên niên sử Thống kê, 24 (6): 2477 21228, tháng 12 năm 1996.

51

Tôi tin rằng nó không quá nhiều về độ thưa thớt, nhưng tính chiều hướng cao thường liên quan đến dữ liệu thưa thớt. Nhưng có lẽ nó còn tồi tệ hơn khi dữ liệu rất thưa thớt. Bởi vì sau đó khoảng cách của bất kỳ hai đối tượng có khả năng sẽ là một bình phương độ dài của họ, hoặc

limCười mở miệngTôimCười mở miệng(x,y)= =||x-y||p||x||2+||y||2

Phương trình này giữ tầm thường nếu . Nếu bạn tăng kích thước và độ thưa thớt đủ để nó giữ cho hầu hết tất cả các thuộc tính, sự khác biệt sẽ là tối thiểu.TôixTôi= =0yTôi= =0

Thậm chí tệ hơn: nếu bạn bình thường hóa các vectơ của bạn có độ dài , thì khoảng cách euclide của hai đối tượng bất kỳ sẽ là ||x||= =1 với xác suất cao.2

Vì vậy, như một quy luật của, cho khoảng cách Euclide là có thể sử dụng (Tôi không tuyên bố hữu ích hoặc có ý nghĩa) các đối tượng nên không trong của các thuộc tính. Sau đó, nên có một số lượng các thuộc tính hợp lý trong đó | y tôi | | x i - y i | | x i | vì vậy sự khác biệt vector trở nên hữu ích. Điều này cũng áp dụng cho bất kỳ sự khác biệt gây ra bởi tiêu chuẩn khác. Vì trong tình huống trên | x - y | p | x + y |3/4|yTôi||xTôi-yTôi||xTôi||x-y|p|x+y|

Tôi không nghĩ rằng đây là một hành vi mong muốn để các hàm khoảng cách trở nên độc lập phần lớn với sự khác biệt thực tế hoặc sự khác biệt tuyệt đối hội tụ đến tổng tuyệt đối!

Một giải pháp phổ biến là sử dụng khoảng cách như khoảng cách Cosine. Trên một số dữ liệu họ làm việc rất tốt. Nói một cách đơn giản, họ chỉ nhìn vào các thuộc tính trong đó cả hai vectơ đều khác không. Một cách tiếp cận thú vị được thảo luận trong tài liệu tham khảo dưới đây (họ không phát minh ra nó, nhưng tôi thích đánh giá thử nghiệm của họ về các tính chất) là sử dụng các hàng xóm gần nhất được chia sẻ. Vì vậy, ngay cả khi các vectơ x và y không có thuộc tính chung, chúng có thể có một số lân cận chung. Đếm số lượng đối tượng kết nối hai đối tượng có liên quan chặt chẽ với khoảng cách đồ thị.

Có rất nhiều cuộc thảo luận về các chức năng khoảng cách trong:

  • Khoảng cách chia sẻ hàng xóm có thể đánh bại lời nguyền của chiều không?
    TÔI Houle, H.-P. Kriegel, P. Kröger, E. Schubert và A. Zimek
    SSDBM 2010

và nếu bạn không thích các bài báo khoa học, cũng trên Wikipedia: Lời nguyền của chiều


2
Giấy thú vị. Ngoài ra còn có một thuật toán phân cụm liên quan đến biện pháp tương tự này. Hàng xóm gần nhất có thể được thể hiện trong một nhân Mercer hợp lệ bằng cách nào đó?
Seeda

Nếu tôi nhớ chúng tương ứng với Euclide trong không gian . Sau đó, có, họ mang lại một hạt nhân tốt đẹp. Rn
Anony-Mousse

44

Tôi khuyên bạn nên bắt đầu với khoảng cách Cosine , không phải Euclide, đối với bất kỳ dữ liệu nào có hầu hết các vectơ gần như trực giao, 0. Để xem tại sao, hãy xem | x - y | 2 = | x | 2 + | y | 2 - 2 x y . Nếu x y 0, điều này làm giảm đến | x | 2 + | y | 2xy
|xy|2=|x|2+|y|22 xy
xy|x|2+|y|2: một thước đo khoảng cách, như Anony-Mousse chỉ ra.

Khoảng cách cosine sử dụng hoặc chiếu dữ liệu lên bề mặt của khối cầu, vì vậy tất cả | x | = 1. Sau đó | x - y | 2 = 2 - 2 x y một số liệu khá khác biệt và thường tốt hơn so với Euclide đơn giản. x y có thể nhỏ, nhưng nó không bị che bởi tiếng ồn | x | 2 + | y | 2 .x/|x||x||xy|2=22 xy
xy|x|2+|y|2

chủ yếu là gần 0 đối với dữ liệu thưa thớt. Ví dụ: nếu mỗi x y có 100 số không khác 0 và 900 số không, cả hai số này sẽ khác không chỉ trong khoảng 10 số hạng (nếu các số hạng khác không phân tán ngẫu nhiên).xyxy

Bình thường hóa / = | x | có thể chậm đối với dữ liệu thưa thớt; nó rất nhanh trong scikit-learn .x|x|

Tóm tắt: bắt đầu với khoảng cách cosin, nhưng đừng mong đợi điều kỳ diệu trên bất kỳ dữ liệu cũ nào.
Số liệu thành công yêu cầu đánh giá, điều chỉnh, kiến ​​thức tên miền.


1
+1 Điều này thêm phân tích chu đáo và hữu ích cho các câu trả lời khác.
whuber

1
Góc trung bình của các điểm được đặt ngẫu nhiên trong luôn gần 90 ° đối với big n (xem các ô ở đây )[-1,1]viết sai rồiviết sai rồi
Martin Thoma

10

Một phần của lời nguyền về chiều là dữ liệu bắt đầu lan ra khỏi trung tâm. Điều này đúng với đa biến thông thường và ngay cả khi các thành phần là IID (hình cầu bình thường). Nhưng nếu bạn muốn nói đúng về khoảng cách Euclide ngay cả trong không gian chiều thấp nếu dữ liệu có cấu trúc tương quan thì khoảng cách Euclide không phải là số liệu thích hợp. Nếu chúng ta cho rằng dữ liệu là đa biến thông thường với một số hiệp phương sai khác và vì lý do cho rằng ma trận hiệp phương sai đã biết. Sau đó, khoảng cách Mahalanobis là thước đo khoảng cách thích hợp và nó không giống với khoảng cách Euclide mà nó sẽ chỉ giảm nếu ma trận hiệp phương sai tỷ lệ với ma trận danh tính.


1
Cảm ơn đề xuất về khoảng cách Mahalanobis thay cho khoảng cách Euclide khi dữ liệu được tương quan. Bạn có thể giải thích lý do tại sao khoảng cách Euclide không xử lý dữ liệu tương quan cũng như khoảng cách Mahalanobis?
Hân hoan

5

Tôi tin rằng điều này có liên quan đến lời nguyền về chiều kích / sự tập trung của biện pháp nhưng tôi không còn có thể tìm thấy cuộc thảo luận thúc đẩy nhận xét này. Tôi tin rằng đã có một chủ đề về siêu tối đa hóa nhưng tôi đã thất bại với Google nó ...

Đối với dữ liệu văn bản, việc chuẩn hóa các vectơ bằng TF-IDF và sau đó áp dụng độ tương tự cosine có thể sẽ mang lại kết quả tốt hơn khoảng cách euclide vì các tài liệu dài (có nhiều từ) có thể chia sẻ cùng một chủ đề do đó rất giống với các tài liệu ngắn có chung số lượng lớn từ ngữ. Loại bỏ các chỉ tiêu của các vectơ giúp trong trường hợp cụ thể đó.


4

0(1,0,0,0)(0,21,0,0)2(1,0,0,0)2(14,14,14,14)0

Hàm này, không phải là chuẩn và cũng không phải là quasinorm, là không đặc biệt và không đối xứng. Tùy thuộc vào tên miền, tên của nó là quân đoàn, ví dụ: chức năng cardinality, số đo hoặc đơn giản là phân tách hoặc thưa thớt. Nó thường được coi là không thực tế cho các mục đích thực tế vì việc sử dụng nó dẫn đến các vấn đề khó khăn của NP .

21

một.x= =|một|x
một000

p(x)p1110p<1p(x)

12

nhập mô tả hình ảnh ở đây

12


4

Bài viết Về hành vi đáng ngạc nhiên của các số liệu khoảng cách trong không gian chiều cao thảo luận về hành vi của các số liệu khoảng cách trong không gian chiều cao.

LkL1 LđụLkđụ(0..1)

Nói tóm lại, họ chỉ ra rằng đối với các không gian có chiều cao sử dụng định mức euclide làm mặc định có lẽ không phải là một ý tưởng hay; chúng ta thường có ít trực giác trong các không gian như vậy, và sự bùng nổ theo cấp số nhân do số lượng kích thước khó có thể tính đến với khoảng cách euclide.


1
Lđụ0<đụ<1
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.