Tại sao khoảng cách Euclide không phải là một số liệu tốt trong kích thước cao?


240

Tôi đọc rằng 'Khoảng cách Euclide không phải là khoảng cách tốt trong các chiều cao'. Tôi đoán câu nói này có liên quan đến lời nguyền của chiều, nhưng chính xác thì sao? Bên cạnh đó, "kích thước cao" là gì? Tôi đã áp dụng phân cụm theo phân cấp bằng khoảng cách Euclide với 100 tính năng. Có bao nhiêu tính năng 'an toàn' để sử dụng số liệu này?



5
Điều này có thể quá cơ bản cho bạn; Tôi đã viết một loạt các bài đăng trên blog về chủ đề của số liệu Euclide ở các chiều cao hơn và cách nó tác động đến việc tìm kiếm không gian vectơ cho các trận đấu gần nhất. blog.msdn.com/b/ericlippert/archive/tags/ từ
Eric Lippert

1
@ HorstGrünbusch xem câu trả lời dưới đây để biết một số tài liệu tham khảo. Phương sai của khoảng cách trở nên nhỏ so với trung bình. Vì vậy, tại một số điểm, bạn gặp khó khăn trong việc lựa chọn ngưỡng, trọng lượng, đặt hàng; và bạn thậm chí có thể nhận được các vấn đề chính xác về số. Nhưng nếu dữ liệu của bạn thưa thớt, có khả năng đó là chiều kích nội tại thấp hơn nhiều .
Anony-Mousse

3
"kích thước cao" dường như là một thuật ngữ sai lệch - một số câu trả lời đang coi 9-12 là "kích thước cao", nhưng ở các khu vực khác, chiều cao cao có nghĩa là hàng ngàn hoặc một triệu kích thước (giả sử, đo góc giữa các vectơ từ ngữ trong đó mỗi thứ nguyên là tần số của một số từ trong từ điển) và 100 thứ nguyên sẽ được gọi là thấp, không cao.
Peteris

2
Câu hỏi này thực sự có thể làm với một số bối cảnh. Không tốt cho cái gì?
Szabolcs

Câu trả lời:


243

Một bản tóm tắt tuyệt vời về kết quả không trực quan ở các chiều cao hơn đến từ " Một vài điều hữu ích cần biết về học máy " của Pedro Martinsos tại Đại học Washington:

[O] trực giác của bạn, xuất phát từ một thế giới ba chiều, thường không áp dụng trong những chiều cao. Trong các kích thước cao, phần lớn khối lượng của phân phối Gaussian đa biến không ở gần giá trị trung bình, nhưng trong một lớp vỏ ngày càng xa xôi xung quanh nó; và hầu hết thể tích của một quả cam có chiều cao nằm trong da chứ không phải ở cùi. Nếu một số lượng ví dụ không đổi được phân phối đồng đều trong một hypercube chiều cao, ngoài một số chiều, hầu hết các ví dụ gần với một mặt của hypercube hơn so với hàng xóm gần nhất của chúng. Và nếu chúng ta ước tính một siêu cầu bằng cách ghi nó vào một hypercube, thì ở các kích thước cao, hầu như tất cả thể tích của hypercube đều nằm ngoài siêu cầu. Đây là tin xấu cho máy học, trong đó hình dạng của một loại thường được xấp xỉ bằng hình dạng của loại khác.

Bài viết này cũng có rất nhiều viên ngọc thông thái bổ sung cho máy học.

Một ứng dụng khác, ngoài học máy, là tìm kiếm hàng xóm gần nhất: được quan sát về mối quan tâm, tìm hàng xóm gần nhất của nó (theo nghĩa đó là những điểm có khoảng cách nhỏ nhất từ ​​điểm truy vấn). Nhưng ở các chiều cao, một hiện tượng tò mò xuất hiện: tỷ lệ giữa các điểm gần nhất và xa nhất tiếp cận 1, tức là các điểm về cơ bản trở nên cách xa nhau. Hiện tượng này có thể được quan sát đối với nhiều số liệu khoảng cách khác nhau, nhưng nó được phát hiện rõ hơn cho số liệu Euclide hơn là, số liệu khoảng cách Manhattan. Tiền đề của tìm kiếm hàng xóm gần nhất là các điểm "gần hơn" có liên quan nhiều hơn các điểm "xa hơn", nhưng nếu tất cả các điểm về cơ bản là cách xa nhau, thì sự khác biệt là vô nghĩa.

Từ Charu C. Aggarwal, Alexander Hinneburg, Daniel A. Keim, " Về hành vi đáng ngạc nhiên của các số liệu khoảng cách trong không gian chiều cao ":

Người ta đã tranh luận trong [Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Trục, " Khi nào là 'Hàng xóm gần nhất' có ý nghĩa? "] Theo các giả định hợp lý nhất định về phân phối dữ liệu, tỷ lệ khoảng cách của các nước láng giềng gần nhất và xa nhất đến một mục tiêu nhất định trong không gian chiều cao là gần 1 cho nhiều phân phối dữ liệu và các hàm khoảng cách. Trong trường hợp như vậy, vấn đề lân cận gần nhất trở nên không xác định, vì sự tương phản giữa khoảng cách đến các điểm dữ liệu khác nhau không tồn tại. Trong những trường hợp như vậy, ngay cả khái niệm về sự gần gũi có thể không có ý nghĩa từ góc độ định tính: một vấn đề thậm chí còn cơ bản hơn sự suy giảm hiệu suất của các thuật toán chiều cao.

... Nhiều cấu trúc và thuật toán lập chỉ mục chiều cao sử dụng thước đo khoảng cách hạt nhân [E] như một phần mở rộng tự nhiên của việc sử dụng truyền thống của nó trong các ứng dụng không gian hai hoặc ba chiều. ... Trong bài báo này, chúng tôi cung cấp một số kết quả lý thuyết và thực nghiệm đáng ngạc nhiên trong việc phân tích sự phụ thuộc của định mức vào giá trị của . Cụ thể hơn, chúng tôi cho thấy rằng độ tương phản tương đối của khoảng cách đến điểm truy vấn phụ thuộc rất nhiều vào số liệu được sử dụng. Điều này cung cấp bằng chứng đáng kể rằng ý nghĩa của định mức trở nên nhanh hơn trong việc tăng tính chiều cho các giá trị cao hơn . Do đó, đối với một vấn đề nhất định với giá trị cố định (cao) cho thứ nguyênLkkLkLkkd, có thể tốt hơn là sử dụng các giá trị thấp hơn của . Điều này có nghĩa là số liệu khoảng cách (số liệu khoảng cách Manhattan) là ưu tiên nhất cho các ứng dụng có chiều cao, tiếp theo là số liệu Euclide ( ). ...kL1L2

Các tác giả của bài báo "Hành vi đáng ngạc nhiên" sau đó đề xuất sử dụng các chỉ tiêu với . Họ tạo ra một số kết quả chứng minh rằng các "định mức phân đoạn" này thể hiện tính chất của việc tăng độ tương phản giữa các điểm xa nhất và gần nhất. Điều này có thể hữu ích trong một số bối cảnh, tuy nhiên có một cảnh báo: những "chỉ tiêu phân số" này không phải là số liệu khoảng cách thích hợp vì chúng vi phạm bất đẳng thức tam giác. Nếu bất đẳng thức tam giác là một phẩm chất quan trọng cần có trong nghiên cứu của bạn, thì các số liệu phân số sẽ không hữu ích lắm.Lkk<1


7
tài liệu tham khảo này thật tuyệt
Antoine

1
Đọc một lần nữa ... Đẹp ...
Richard Hardy

113

Khái niệm khoảng cách Euclide, hoạt động tốt trong thế giới hai chiều và ba chiều được nghiên cứu bởi Euclid, có một số tính chất ở các chiều cao trái ngược với trực giác hình học (có thể chỉ của tôi ) của chúng tôi cũng là ngoại suy từ hai và ba kích thước.

Hãy xem xét một hình vuông với các đỉnh tại . Vẽ bốn vòng tròn bán kính đơn vị tập trung tại . Chúng "lấp đầy" hình vuông, với mỗi vòng tròn chạm vào các cạnh của hình vuông tại hai điểm và mỗi vòng tròn chạm vào hai hàng xóm của nó. Ví dụ: đường tròn có tâm ở chạm vào các cạnh của hình vuông tại và và các vòng tròn lân cận của nó tại và . Tiếp theo, vẽ một vòng tròn nhỏ ở giữa4×4(±2,±2)(±1,±1)(1,1)(2,1)(1,2)(1,0)(0,1)chạm vào tất cả bốn vòng tròn. Do đoạn đường có điểm cuối là trung tâm của hai vòng tròn thẩm thấu đi qua điểm thẩm thấu, nên có thể dễ dàng xác minh rằng vòng tròn nhỏ có bán kính và nó chạm vào bốn vòng tròn lớn hơn tại . Lưu ý rằng vòng tròn nhỏ được "bao quanh hoàn toàn" bởi bốn vòng tròn lớn hơn và do đó cũng hoàn toàn bên trong hình vuông. Cũng lưu ý rằng điểm nằm trên vòng tròn nhỏ. Cũng lưu ý rằng từ điểm gốc, người ta không thể "nhìn thấy" điểm trên cạnh của hình vuông vì đường ngắm đi qua điểm thẩm thấu của hai đường tròn ở giữa tạir2=21(±r2/2,±r2/2)(r2,0)(2,0,0)(1,0,0)(1,1) và . Ditto cho các đường ngắm đến các điểm khác trong đó các trục đi qua các cạnh của hình vuông.(1,1)

Tiếp theo, hãy xem xét một khối lập phương với các đỉnh tại . Chúng tôi lấp đầy nó bằng quả cầu bán kính đơn vị tập trung tại , và sau đó đặt một quả cầu thẩm thấu nhỏ hơn tập trung tại điểm gốc. Lưu ý rằng hình cầu nhỏ có bán kính và điểm nằm trên bề mặt của hình cầu nhỏ. Nhưng cũng lưu ý rằng trong ba chiều, người ta có thể "nhìn thấy" điểm 4×4×4(±2,±2,±2)8(±1,±1,±1)r3=31<1(r3,0,0)(2,0,0)từ nguồn gốc; không có những quả cầu lớn hơn lớn hơn chặn tầm nhìn như xảy ra ở hai chiều. Những đường ngắm rõ ràng này từ điểm gốc đến các điểm mà trục đi qua bề mặt của khối lập phương cũng xảy ra ở tất cả các kích thước lớn hơn.

Tổng quát hóa, chúng ta có thể xem xét một hypercube -chiều hai bên của và lấp đầy nó bằng thấu các bán kính đơn vị tập trung tại và sau đó đặt "nhỏ hơn" hình cầu bán kính tại điểm gốc. Điểm nằm trên quả cầu "nhỏ hơn" này. Nhưng, lưu ý từ rằng khi , và do đó, hình cầu "nhỏ hơn" có bán kính đơn vị và do đó thực sự không xứng đáng với giá trị "nhỏ hơn" chon42n(±1,±1,,±1)(rn,0,0,...,0)(1)n=4rn=1n4n>9(1)rn>2(rn,0,0,...,0)4

(1)rn=n1
(rn,0,0,,0)(1)n=4rn=1n4. Thật vậy, sẽ tốt hơn nếu chúng ta gọi nó là "quả cầu lớn hơn" hay chỉ là "quả cầu trung tâm". Như đã lưu ý trong đoạn cuối, có một đường ngắm rõ ràng từ điểm gốc đến các điểm mà các trục đi qua bề mặt của hypercube. Tệ hơn nữa, khi , chúng tôi có từ mà , và do đó các điểm trên phạm vi trung tâm nằm ngoài hypercube của bên mặc dù nó là "bao quanh hoàn toàn" bởi các siêu thị bán kính đơn vị "lấp đầy" hypercube (theo nghĩa đóng gói nó).n>9(1)rn>2(rn,0,0,,0)4 Quả cầu trung tâm "phình ra" bên ngoài hypercube trong không gian nhiều chiều. Tôi thấy điều này rất phản trực giác bởi vì những bản dịch tinh thần của tôi về khái niệm khoảng cách Euclide đến các chiều cao hơn, sử dụng trực giác hình học mà tôi đã phát triển từ 2 không gian và 3 không gian mà tôi quen thuộc, không mô tả thực tế không gian chiều cao.

Câu trả lời của tôi cho câu hỏi của OP "Bên cạnh đó, 'kích thước cao' là gì?" là .n9



9
@ stackoverflowuser2010: Nếu câu trả lời này hoàn toàn không thể hiểu được, làm thế nào bạn có thể biết liệu nó có giải quyết hoặc cố gắng giải quyết câu hỏi ban đầu không? Một cách tiếp cận mang tính xây dựng hơn có thể là yêu cầu làm sáng tỏ bất kỳ điểm nào bạn thấy không rõ ràng hơn là gạt bỏ toàn bộ sự việc ra khỏi tầm tay.
Scortchi

8
@ stackoverflowuser2010 Vì câu trả lời này có rất nhiều câu hỏi, nên nhiều người cảm thấy rằng nó vừa dễ hiểu vừa có thể trả lời theo cách có thể chấp nhận được cho câu hỏi. Có lẽ bạn có thể thử một lời chỉ trích mang tính xây dựng hơn - làm thế nào, cụ thể bạn nghĩ câu trả lời này sẽ được cải thiện? Nó nên bao gồm những gì nó không?
Glen_b

1
@Scortchi: Có thể tôi đang mong đợi quá nhiều, nhưng một câu trả lời rõ ràng cho câu hỏi này có thể giúp cộng đồng sẽ là một cái gì đó như "Khoảng cách Euclide không phải là một thước đo tốt vì <X>".
stackoverflowuser2010

7
@ stackoverflow2010 Bạn sẽ không bao giờ thấy câu trả lời "tốt" như thế bởi vì <mọi thứ phức tạp hơn nhiều so với câu lệnh if-then>. Nếu bạn muốn một câu trả lời dễ dàng, rất có thể là sai. Giống như những kẻ nói dối Brexit chết tiệt, họ rất giỏi trong việc đưa ra những câu trả lời dễ dàng (sai, nhưng dễ).
Anony-Mousse

42

Đây là một vấn đề của tín hiệu nhiễu . Khoảng cách Euclide, do các điều khoản bình phương, đặc biệt nhạy cảm với tiếng ồn; nhưng ngay cả khoảng cách Manhattan và khoảng cách "phân số" (phi số liệu) cũng phải chịu.

Tôi thấy các nghiên cứu trong bài viết này rất khai sáng:

Zimek, A., Schubert, E. và Kriegel, H.-P. (2012),
Một cuộc khảo sát về phát hiện ngoại lệ không giám sát trong dữ liệu số chiều cao.
Phân tích dữ liệu thống kê khai thác, 5: 363 Từ387. doi: 10.1002 / sam.11161

Nó xem xét lại các quan sát được thực hiện trong ví dụ: Về hành vi đáng ngạc nhiên của các số liệu khoảng cách trong không gian chiều cao của Aggarwal, Hinneburg và Keim được đề cập bởi @Pat. Nhưng nó cũng cho thấy các thí nghiệm tổng hợp bị sai lệch như thế nào và trên thực tế dữ liệu chiều cao có thể trở nên dễ dàng hơn . Nếu bạn có nhiều tín hiệu (dự phòng) và kích thước mới sẽ thêm ít nhiễu.

x,yx,y,x,y,x,y,x,y,...,x,y

Vì vậy, cuối cùng, nó vẫn phụ thuộc vào dữ liệu của bạn. Nếu bạn có nhiều thuộc tính vô dụng, khoảng cách Euclide sẽ trở nên vô dụng. Nếu bạn có thể dễ dàng nhúng dữ liệu của mình vào không gian dữ liệu chiều thấp, thì khoảng cách Euclide cũng sẽ hoạt động trong không gian toàn chiều. Đặc biệt đối với dữ liệu thưa thớt , chẳng hạn như vectơ TF từ văn bản, điều này dường như là trường hợp dữ liệu có chiều thấp hơn nhiều so với mô hình không gian vectơ gợi ý.

Một số người tin rằng khoảng cách cosin tốt hơn Euclide trên dữ liệu chiều cao. Tôi không nghĩ vậy: khoảng cách cosin và khoảng cách Euclide có liên quan chặt chẽ với nhau; Vì vậy, chúng ta phải mong đợi họ phải chịu những vấn đề tương tự. Tuy nhiên, dữ liệu văn bản nơi cosine phổ biến thường thưa thớt và cosine nhanh hơn trên dữ liệu thưa thớt - vì vậy đối với dữ liệu thưa thớt, có những lý do chính đáng để sử dụng cosine; và bởi vì dữ liệu thưa thớt nên chiều kích nội tại ít hơn nhiều so với kích thước không gian vectơ.

Xem thêm câu trả lời này tôi đã đưa ra một câu hỏi trước đó: https://stats.stackexchange.com/a/29647/7828


[1,1]nn

Và kết luận từ đó là gì? Trên [-1; 1] ^ người ta không nên sử dụng Cosine vì nó không được xác định là 0, trung bình không cho chúng ta biết bất cứ điều gì về lời nguyền và dữ liệu thống nhất là không thực tế.
Anony-Mousse

Bây giờ tôi đã không thử nó, nhưng tôi đoán rằng các góc trông tương tự như dữ liệu thực. Thực tế là nó không được xác định ở 0 nên không thực sự quan trọng vì nó chỉ là một điểm duy nhất. Kết luận của tôi tương tự như của bạn: Khoảng cách Cosine không phù hợp với không gian nhiều chiều (mặc dù có thể có các miền vẫn hoạt động)
Martin Thoma

Một kịch bản thực tế hơn sẽ là các điểm trên phạm vi đơn vị không âm. Và các biện pháp quan tâm có thể sẽ là phương sai, không có nghĩa.
Anony-Mousse

Để đến khu vực đơn vị không âm, bạn chỉ cần thêm +1 và chia cho 2 ...
Martin Thoma

34

Nơi tốt nhất để bắt đầu có lẽ là đọc Về hành vi đáng ngạc nhiên của các số liệu khoảng cách trong không gian chiều cao của Aggarwal, Hinneburg và Keim. Có một liên kết hiện đang hoạt động ở đây (pdf) , nhưng nó sẽ rất có khả năng google nếu nó bị hỏng. Nói tóm lại, khi số lượng kích thước tăng lên, khoảng cách euclide tương đối giữa một điểm trong một tập hợp và hàng xóm gần nhất của nó, và giữa điểm đó với hàng xóm xa nhất của nó, thay đổi theo một số cách không rõ ràng. Việc này có ảnh hưởng xấu đến kết quả của bạn hay không phụ thuộc rất nhiều vào những gì bạn đang cố gắng đạt được và dữ liệu của bạn như thế nào.


6

Khoảng cách Euclide rất hiếm khi là khoảng cách tốt để chọn trong Machine Learning và điều này trở nên rõ ràng hơn ở các chiều cao hơn. Điều này là do phần lớn thời gian trong Machine Learning bạn không phải đối phó với Không gian số liệu Euclide, mà là Không gian số liệu xác suất và do đó bạn nên sử dụng các hàm khoảng cách lý thuyết xác suất và thông tin, ví dụ như các hàm dựa trên entropy.

Con người thích không gian euclide vì nó dễ khái niệm hóa, hơn nữa nó dễ dàng về mặt toán học vì các tính chất tuyến tính có nghĩa là chúng ta có thể áp dụng đại số tuyến tính. Nếu chúng ta xác định khoảng cách theo các khía cạnh, giả sử Phân kỳ Kullback-Leibler, thì việc hình dung và làm việc với toán học sẽ khó hơn.


2
Nó có thể là vấn đề, vì KL Divergence không phải là một số liệu. :-)
agarie

2
Nếu một người cần đối xứng, bạn có thể sử dụng Thông tin lẫn nhau, như được gợi ý, có thể được định nghĩa theo thuật ngữ KL.
samthebest

3

Tương tự như vậy, hãy tưởng tượng một vòng tròn tập trung ở gốc. Điểm được phân phối đều. Giả sử một điểm được chọn ngẫu nhiên là tại (x1, x2). Khoảng cách Euclide từ gốc tọa độ là ((x1) ^ 2 + (x2) ^ 2) ^ 0,5

Bây giờ, hãy tưởng tượng các điểm phân bố đều trên một quả cầu. Điểm giống nhau đó (x1, x2) bây giờ sẽ có thể là (x1, x2, x3). Vì trong phân phối chẵn, chỉ một vài điểm có một trong các tọa độ là 0, nên chúng ta sẽ giả sử rằng [x3! = 0] cho điểm phân phối đồng đều được chọn ngẫu nhiên của chúng tôi. Do đó, điểm ngẫu nhiên của chúng tôi rất có thể (x1, x2, x3) chứ không phải (x1, x2, 0).

Ảnh hưởng của điều này là: bất kỳ điểm ngẫu nhiên nào hiện ở khoảng cách ((x1) ^ 2 + (x2) ^ 2 + (x3) ^ 2) ^ 0,5 từ gốc của hình cầu 3 chiều. Khoảng cách này lớn hơn khoảng cách đối với một điểm ngẫu nhiên gần gốc của vòng tròn 2 chiều. Vấn đề này trở nên tồi tệ hơn ở các chiều cao hơn, đó là lý do tại sao chúng tôi chọn các số liệu khác với các kích thước Euclide để làm việc với các kích thước cao hơn.

EDIT: Có một câu nói mà tôi nhớ lại bây giờ: "Hầu hết các khối lượng của một cam chiều cao là trong da, không phải là bột", có nghĩa là trong không gian cao hơn đều điểm phân phối có nhiều "gần" (Euclide khoảng cách) ranh giới hơn nguồn gốc.

Lưu ý bên lề: Khoảng cách Euclide không quá tệ đối với các vấn đề trong thế giới thực do 'phước lành của sự không đồng nhất', về cơ bản nói rằng đối với dữ liệu thực, dữ liệu của bạn có thể KHÔNG được phân phối đều trong không gian chiều cao hơn, nhưng sẽ chiếm một tập hợp con nhỏ của không gian. Điều này có ý nghĩa bằng trực giác: nếu bạn đo 100 đại lượng về con người như chiều cao, cân nặng, v.v., phân phối đồng đều trên không gian kích thước sẽ không có ý nghĩa, ví dụ: một người có (chiều cao = 65 inch, cân nặng = 150 lbs, avg_calorie_intake = 4000) không thể có trong thế giới thực.


Nếu bất kỳ độc giả tương lai nào quan tâm đến trích dẫn "cam / bột giấy" hoặc nhận xét "phước lành của sự không đồng nhất", cả hai đều xuất hiện trong "Một vài điều hữu ích để tìm hiểu về học máy", được liên kết với câu trả lời của tôi về điều này chủ đề.
Sycorax

1

Một khía cạnh khác của câu hỏi này là:

Rất thường các chiều cao trong các vấn đề (học máy / thống kê) là kết quả của các tính năng bị hạn chế quá mức.

Có nghĩa là kích thước KHÔNG độc lập (hoặc không tương quan), nhưng số liệu Euclide giả định (ít nhất) không tương quan và do đó có thể không mang lại kết quả tốt nhất

Vì vậy, để trả lời câu hỏi của bạn, số lượng "kích thước cao" có liên quan đến số lượng tính năng không liên quan hoặc dư thừa hoặc quá hạn chế

Ngoài ra: Một định lý của Csiszar (et al.) Rằng các số liệu Euclide là ứng cử viên "tự nhiên" để suy luận khi các tính năng có dạng nhất định


3
Số liệu Euclide không "giả sử ... không tương quan". Khoảng cách Euclide làm việc tồi tệ nhất ở kích thước cao với các biến không tương quan. Hãy xem xét trường hợp cực đoan: bạn có rất nhiều thứ nguyên hoàn toàn tương quan, r = 1, bây giờ dữ liệu của bạn trên thực tế là một chiều, và khoảng cách Euclide hoạt động tốt với dữ liệu w / uni chiều.
gung

Không, tôi không nghĩ vậy, khoảng cách Euclide theo định nghĩa giả định dữ liệu không được chỉnh sửa (trừ khi sử dụng khoảng cách Euclide tổng quát với ma trận hiệu chỉnh)
Nikos M.

Các tính năng có tổng tương quan (r = 1) là một ví dụ tầm thường và tương đương với "ma trận tương quan tầm thường", nhưng có lẽ tôi đã sai
Nikos M.

@gung Bạn có thể hiểu một sự mất mát Euclide là sự mất mát entropy chéo của Gaussian với ma trận phương sai đẳng hướng đơn vị cố định. Tôi nghĩ rằng đây là một điểm tốt, nhưng nó có thể được giải thích tốt hơn.
Neil G

1
(0,0)(1,1)dE=j(x2jx1j)22X1=X212cor(X1,X2)=02

0

Bài viết này cũng có thể giúp bạn "Đo lường độ tương tự sqrt-cosine được cải thiện" hãy truy cập https://journalofbigdata.springeropen.com/articles/10.1186/s40537-017-0083-6 Bài viết này giải thích tại sao khoảng cách Euclide không phải là một thước đo tốt ở chiều cao dữ liệu và sự thay thế tốt nhất cho khoảng cách Euclide trong dữ liệu chiều cao. Khoảng cách Euclide là định mức L2 và bằng cách giảm giá trị của k trong định mức Lk, chúng ta có thể làm giảm bớt vấn đề khoảng cách trong dữ liệu chiều cao. Bạn có thể tìm thấy các tài liệu tham khảo trong bài viết này là tốt.


2
Chào mừng đến với trang web. Chúng tôi đang cố gắng xây dựng một kho lưu trữ thông tin thống kê chất lượng cao vĩnh viễn dưới dạng câu hỏi và câu trả lời. Vì vậy, chúng tôi cảnh giác với các câu trả lời chỉ liên kết, do linkrot. Bạn có thể đăng một trích dẫn đầy đủ và một bản tóm tắt các thông tin tại liên kết, trong trường hợp nó bị chết?
gung
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.