Giả sử rằng chúng ta có một tập hợp các yếu tố E và một sự tương đồng ( không khoảng cách ) chức năng sim (ei, ej) giữa hai yếu tố ei, ej ∈ E .
Làm thế nào chúng ta có thể (hiệu quả) phân cụm các yếu tố của E , sử dụng sim ?
k -means, ví dụ, yêu cầu một k cho trước , Canopy Clustering yêu cầu hai giá trị ngưỡng. Điều gì xảy ra nếu chúng ta không muốn các tham số được xác định trước như vậy?
Lưu ý, sim đó không nhất thiết là một số liệu (tức là bất đẳng thức tam giác có thể hoặc không thể giữ). Hơn nữa, không có vấn đề gì nếu các cụm bị tách rời (phân vùng của E ).
1-sim(ei, ej) = Distance
. Với số liệu khoảng cách, bạn có thể áp dụng ví dụ phân cụm theo phân cấp. Đi xuống từ gốc bạn sẽ thấy ở mức độ nào của cụm chi tiết sẽ có ý nghĩa cho vấn đề cụ thể của bạn.