Những phương pháp tồn tại để tính khoảng cách trong phân cụm? Khi nào chúng ta nên sử dụng mỗi người trong số họ?


7

Những phương pháp tồn tại để tính khoảng cách trong phân cụm? như Manhattan, Euclide, v.v.? Thêm vào đó, tôi không biết khi nào tôi nên sử dụng chúng. Tôi luôn luôn sử dụng khoảng cách Euclide.

Câu trả lời:


8

À, có một cuốn sách tên là

Deza, Michel Marie và Elena Deza.
Bách khoa toàn thư về khoảng cách .
Springer Berlin Heidelberg, 2009. ISBN 980-3-642-00233-5

Tôi đoán rằng cuốn sách trả lời câu hỏi của bạn tốt hơn tôi có thể ...

Chọn chức năng khoảng cách phù hợp nhất cho dữ liệu của bạn.

Ví dụ: về vĩ độ và kinh độ, hãy sử dụng khoảng cách như Haversine. Nếu bạn có đủ CPU, bạn có thể sử dụng các xấp xỉ tốt hơn như của Vincenty.

Trên biểu đồ, sử dụng khoảng cách ba phân phối. Động đất (EMD), phân kỳ, giao cắt biểu đồ, khoảng cách dạng bậc hai, v.v.

Trên dữ liệu nhị phân, ví dụ Jaccard, Dice hoặc Hamming có rất nhiều ý nghĩa.

Trên dữ liệu thưa thớt không nhị phân, chẳng hạn như văn bản, các biến thể khác nhau của trọng lượng tf-idf và cosine là phổ biến.

Có lẽ công cụ tốt nhất để thử nghiệm các chức năng khoảng cách và phân cụm khác nhau là ELKI. Nó có nhiều khoảng cách và nhiều thuật toán phân cụm có thể được sử dụng với tất cả các khoảng cách này (ví dụ: OPTICS). Ví dụ, khoảng cách Canberra làm việc rất tốt đối với tôi. Đó có lẽ là những gì tôi sẽ chọn là "mặc định".


1

Có hai phương pháp được sử dụng rộng rãi để tính khoảng cách trong miền phân cụm. Họ đang:

  • Khoảng cách Manhattan
  • Khoảng cách Euclide

Tuy nhiên, không có chỉ thị rõ ràng nào để lựa chọn ở trên, vì vậy bài đăng này có thể hữu ích cho bạn về vấn đề tương tự. Nói chung, số liệu khoảng cách phụ thuộc vào báo cáo vấn đề và loại dữ liệu.

Ví dụ, khoảng cách euclide và cosine được sử dụng khi dữ liệu dày đặc và thưa thớt tương ứng.

Tôi luôn luôn sử dụng khoảng cách euclide.

Tôi sẽ không trách bạn vì điều đó. Tuy nhiên, khi tính toán khoảng cách cartesian (như trong trường hợp hệ thống recommender), khoảng cách Euclide được ưu tiên.


0

Tôi muốn nhấn mạnh rằng ngoài các khoảng cách nổi tiếng: Manhattan Khoảng cách Euclide

Kl-d đối xứng có thể được sử dụng khi bạn phân cụm.


0

Hàm khoảng cách nào sẽ sử dụng phụ thuộc vào hình dạng dữ liệu. Trong một số trường hợp, bạn có thể vẽ dữ liệu cho mình và trực quan hóa sau đó đưa ra quyết định nhưng trong các vấn đề trong thế giới thực, điều đó là không thể.

Đối với hầu hết các thuật toán phân cụm như Kmeans, miễn là hàm khoảng cách là một số liệu bạn có thể sử dụng nó. Có các phương pháp để tìm hiểu một số liệu theo hình học dữ liệu mà bạn có thể sử dụng để phân cụm dữ liệu.

Học số liệu có liên quan chặt chẽ với giảm chiều.

Nếu bạn đang sử dụng MATLAB, hãy kiểm tra bộ công cụ này .


k-mean chỉ hoạt động với các phân kỳ Bregman, không phải với các số liệu tùy ý. Bởi vì có nghĩa là không tối ưu hóa các số liệu tùy ý.
Có QUIT - Anony-Mousse

Điều đó có nghĩa là gì khi bạn nói - có nghĩa là không tối ưu hóa? Thêm một nguồn xin vui lòng.
pj

Tìm kiếm "tại sao k-nghĩa chỉ hoạt động với khoảng cách Euclide".
Có QUIT - Anony-Mousse
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.