Ai đó có thể giải thích C-Index trong bối cảnh phân cụm phân cấp không?

Đây là một tiếp theo cho câu hỏi này . Tôi hiện đang cố gắng thực hiện C-Index để tìm số cụm gần như tối ưu từ hệ thống phân cấp của cụm. Tôi làm điều này bằng cách tính toán chỉ số C cho mỗi bước của phân cụm phân cấp (kết tụ). Vấn đề là chỉ số C là tối thiểu (chính xác là 0) cho các cụm rất thoái hóa. Xem xét điều này:

$c = \frac{S-S_{min}}{S_{max}-S_{min}}$

Trong trường hợp này là tổng của tất cả các khoảng cách giữa các cặp quan sát trong cùng một cụm trên tất cả các cụm. Gọi là số của các cặp này. và là tổng của khoảng cách thấp nhất / cao nhất trên tất cả các cặp quan sát. Trong bước đầu tiên của cụm phân cấp, hai quan sát gần nhất (khoảng cách tối thiểu) được hợp nhất thành một cụm. Gọi là khoảng cách giữa các quan sát này. Bây giờ có một cặp quan sát trong cùng một cụm, vì vậy (tất cả các cụm khác là singletons). Do đó $S$ $n$ $S_{min}$ $S_{max}$ $n$ $d$ $n=1$ . Vấn đề là cũng bằng , vì là khoảng cách nhỏ nhất (đó là lý do tại sao các quan sát được hợp nhất trước). Vì vậy, trong trường hợp này, C-Index luôn là 0. Nó duy trì 0 miễn là chỉ các cụm đơn được hợp nhất. Điều này có nghĩa là phân cụm tối ưu theo C-Index sẽ luôn bao gồm một cụm các cụm chứa hai quan sát và các singletons còn lại. Điều này có nghĩa là Chỉ số C không được áp dụng cho phân cụm theo cấp bậc? Tôi có làm điều gì sai? Tôi đã tìm kiếm rất nhiều, nhưng không thể tìm thấy bất kỳ lời giải thích phù hợp. Ai đó có thể giới thiệu cho tôi một số tài nguyên có sẵn miễn phí trên internet không? Hoặc, nếu không, ít nhất là một cuốn sách tôi có thể cố gắng để có được tại thư viện trường đại học của tôi? $S=d$ $S_{min}$ $d$ $d$

Cảm ơn trước!

clustering

— Bjorn Pollex
nguồn

Quan sát của bạn là chính xác, nhưng tất cả đều ổn với chỉ số C. Chỉ số C là 0 khi giải pháp phân cụm được quan sát không khác biệt so với giải pháp "lý tưởng" tốt nhất về mặt lý thuyết theo số lượng khoảng cách (quan sát) đã cho. Hãy xem xét một tập dữ liệu bao gồm tất cả các cặp đối tượng chặt chẽ và các cặp này cách nhau khá xa. Phân cụm theo phân cấp theo hầu như bất kỳ phương thức liên kết nào trước tiên - trên các bước ban đầu - "thu thập" các đối tượng thành các cặp này. Và tất cả thời gian đó chỉ số C sẽ vẫn là 0. Sau đó, việc phân cụm sẽ đến để hợp nhất giữa các cặp khác nhau: Chỉ số C sẽ trở nên tồi tệ hơn.

— ttnphns

Thuật toán tính toán chỉ số C được hiển thị ở đây stats.stackexchange.com/q 4323878/3277 .

— ttnphns

PS Đừng quên rằng C-Index càng thấp (càng gần 0) thì càng tốt!

— ttnphns

Đây có thể là một trong những trường hợp có nhiều nghệ thuật hơn khoa học để phân cụm. Tôi sẽ đề nghị bạn để thuật toán phân cụm của bạn chạy trong một thời gian ngắn trước khi cho phép tính toán C-Index khởi động. "Thời gian ngắn" có thể sau khi xử lý một vài cặp, ngay khi nó bắt đầu vượt quá 0 hoặc một số heuristic khác. (Sau tất cả, bạn không mong đợi dừng lại ở 1 hoặc 2 cụm, nếu không, thuật toán phân tách khác có thể đã được triển khai.)

Đối với một đề nghị cuốn sách, tôi có thể đề nghị:

Phân tích cụm của Brian Everitt, Sabine Landau, Morven Leese

Bạn có thể quét / tìm kiếm nội dung có sẵn trên sách google để xem nó có đáp ứng nhu cầu của bạn không. Nó hoạt động như một tài liệu tham khảo cho tôi trong quá khứ.

— ars
nguồn

Rất tiếc, bạn đang sử dụng các phương pháp kết tụ, vì vậy phần "1 hoặc 2 cụm" không có ý nghĩa - áp dụng "nghịch đảo", bạn không muốn các nhóm đơn n-1 hoặc n-2, v.v. làm việc một chút trước khi áp dụng các tiêu chí hợp lệ không nên có vấn đề.

— ars