Có bất kỳ thuật toán phân cụm không dựa trên khoảng cách?


14

Dường như đối với phương tiện K và các thuật toán liên quan khác, việc phân cụm dựa trên việc tính toán khoảng cách giữa các điểm. Có một cái mà làm việc mà không có nó?


2
Chính xác thì bạn có ý gì khi "phân cụm" mà không có cách nào để định lượng độ tương tự hoặc "độ gần" của các điểm?
whuber

2
Câu trả lời của @ Tim dưới đây là rất tốt. Bạn có thể muốn xem xét nâng cấp & / hoặc chấp nhận nó, nếu nó đã giúp bạn; đó là một cách hay để nói 'cảm ơn'. Mở rộng ý tưởng của mình, có phân tích lớp tiềm ẩn , áp dụng một cách tiếp cận tương tự với dữ liệu phân loại. Một cách tiếp cận không tham số đối với FMM có thể được sử dụng thông qua độ cao của ước tính mật độ hạt nhân đa biến. Xem Phân cụm thông qua Ước tính mật độ không theo tỷ lệ: Gói R pdfCluster ( pdf ) để biết thêm.
gung - Tái lập Monica

Câu trả lời:


25

Một ví dụ về phương pháp như vậy là Mô hình hỗn hợp hữu hạn (ví dụ ở đây hoặc ở đây ) được sử dụng để phân cụm. Trong FMM bạn xem xét sự phân bố ( ) của biến của bạn X là một hỗn hợp của K phân phối ( f 1 , . . . , F k ):fXKf1,...,fk

f(x,ϑ)=k=1Kπkfk(x,ϑk)

nơi là một vector của các tham số θ = ( π ' , θ ' 1 , . . . , θ ' k ) 'ϑϑ=(π,ϑ1,...,ϑk) là một tỷ lệ k 'th phân phối trong hỗn hợp và θ k là một tham số (hoặc các thông số) của phân phối f k .πkkϑkfk

Một trường hợp cụ thể cho dữ liệu rời rạc là Phân tích lớp tiềm ẩn (ví dụ ở đây ) được định nghĩa là:

P(x,k)=P(k)P(x|k)

Trong đó là xác suất quan sát lớp tiềm ẩn k (tức là π k ), P ( x ) là xác suất quan sát giá trị xP ( x | k ) là xác suất của x nằm trong lớp k .P(k)kπkP(x)xP(x|k)xk

Thông thường cho cả thuật toán FMM và LCA EM được sử dụng để ước tính, nhưng phương pháp Bayes cũng có thể, nhưng đòi hỏi nhiều hơn một chút vì các vấn đề như nhận dạng mô hình và chuyển đổi nhãn (ví dụ blog của Xi'an ).

Vì vậy, không có thước đo khoảng cách mà thay vào đó là một mô hình thống kê xác định cấu trúc (phân phối) dữ liệu của bạn. Do đó, tên khác của phương thức này là "phân cụm dựa trên mô hình".

Kiểm tra hai cuốn sách về FMM:

Một trong hầu hết các gói phân nhóm phổ biến có sử dụng FMM được mclust(kiểm tra ở đây hoặc ở đây ) được thực hiện trong R . Tuy nhiên, FMM phức tạp hơn cũng có thể, kiểm tra ví dụ flexmixgói và tài liệu của nó . Đối với LCA có gói R poLCA .


Bạn có ý thức tốt về các trường hợp sử dụng khác nhau có thể là gì?
bóng tối

Như trong, "khi nào tôi nên sử dụng cái này thay vì, nói, phân vùng xung quanh medoid?" Dù sao câu trả lời rất hay
Shadowtalker

1
@caveman lưu ý đó chỉ là một quy ước công chứng. Nó là một vectơ của vectơ, đó là tất cả.
Tim

1
@caveman có phân phối khác nhau f 1 , . . . , f k có trong hỗn hợp, mỗi trong số chúng có tham số riêng (đó là lý do tại sao chúng ta có vectơ tham số). k f1,...,fk
Tim

1
@caveman trường hợp điển hình nhất là bạn có ví dụ như phân phối bình thường, với các phương tiện và sd khác nhau. Nhưng chúng có thể khác nhau, xem ví dụ 3.1 trong cran.r-project.org/web/packages/flexmix/vignettes/ tên cho thấy hỗn hợp hai mô hình hồi quy khác nhau. k
Tim

7

K-mean không phải là "thực sự" khoảng cách dựa. Nó giảm thiểu phương sai . (Nhưng đúng bình phương khoảng cách Euclide, vì thế tất cả các điểm được giao cho trọng tâm khu vực gần theo khoảng cách Euclide, quá).

Có rất nhiều cách tiếp cận phân cụm dựa trên lưới . Họ không tính toán khoảng cách vì điều đó thường mang lại thời gian chạy bậc hai. Thay vào đó, họ phân vùng dữ liệu và tổng hợp nó thành các ô lưới. Nhưng trực giác đằng sau những cách tiếp cận như vậy thường liên quan rất chặt chẽ đến khoảng cách.

Có một số thuật toán phân cụm cho dữ liệu phân loại như COOLCAT và STUCCO. Khoảng cách không dễ sử dụng với dữ liệu đó (mã hóa một lần nóng là hack và không mang lại khoảng cách đặc biệt có ý nghĩa). Nhưng tôi chưa nghe thấy ai sử dụng các thuật toán này ...

Có các cách tiếp cận phân cụm cho đồ thị. Nhưng chúng có thể giảm đến các vấn đề đồ thị cổ điển như tìm kiếm clique hoặc gần clique và tô màu đồ thị, hoặc chúng được kết nối chặt chẽ với phân cụm dựa trên khoảng cách (nếu bạn có một biểu đồ có trọng số).

Phân cụm dựa trên mật độ như DBSCAN có một tên khác và không tập trung vào việc thu nhỏ khoảng cách; nhưng "mật độ" thường được chỉ định liên quan đến khoảng cách, vì vậy về mặt kỹ thuật, các thuật toán này là dựa trên khoảng cách hoặc dựa trên lưới.

Phần thiết yếu của câu hỏi mà bạn để lại là dữ liệu của bạn là gì?


1
+1: Tôi đánh giá cao việc bạn cho thấy bất kỳ thuật toán phân cụm nào sử dụng một số ý nghĩa khái quát (có lẽ) khái quát về "khoảng cách" hoặc "tương tự" và rằng bạn làm như vậy trong khi đưa ra một khảo sát về nhiều thuật toán như vậy.
whuber

Tôi nghĩ bởi "dựa trên khoảng cách", ông có nghĩa là số liệu tương tự, bao gồm phương sai.
en1

1
Tại sao phương sai sẽ là một số liệu tương tự? Nó liên quan đến khoảng cách Euclide vuông; nhưng không tương đương với khoảng cách tùy ý s .
Có QUIT - Anony-Mousse


2

Một cách tiếp cận hoàn toàn phân biệt đối xử là "tối đa hóa thông tin thường xuyên" của Gomes et al . Không có khái niệm về sự giống nhau / khoảng cách liên quan đến nó.

Ý tưởng là có một hồi quy logistic như mô hình đặt các điểm vào thùng. Nhưng thay vì đào tạo nó để tối đa hóa một số dạng khả năng đăng nhập của các nhãn lớp, hàm mục tiêu là một hàm đặt các điểm vào các cụm khác nhau.

λ

Mở rộng cho các phương thức kernel hoặc mạng nơ ron để phân cụm phi tuyến tính rất đơn giản.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.