Đây là một tiếp theo cho câu hỏi này . Tôi hiện đang cố gắng thực hiện C-Index để tìm số cụm gần như tối ưu từ hệ thống phân cấp của cụm. Tôi làm điều này bằng cách tính toán chỉ số C cho mỗi bước của phân cụm phân cấp (kết tụ). Vấn đề là chỉ số C là tối thiểu (chính xác là 0) cho các cụm rất thoái hóa. Xem xét điều này:
Trong trường hợp này là tổng của tất cả các khoảng cách giữa các cặp quan sát trong cùng một cụm trên tất cả các cụm. Gọi n là số của các cặp này. S m i n và S m a x là tổng của n khoảng cách thấp nhất / cao nhất trên tất cả các cặp quan sát. Trong bước đầu tiên của cụm phân cấp, hai quan sát gần nhất (khoảng cách tối thiểu) được hợp nhất thành một cụm. Gọi d là khoảng cách giữa các quan sát này. Bây giờ có một cặp quan sát trong cùng một cụm, vì vậy n = 1 (tất cả các cụm khác là singletons). Do đó S = . Vấn đề là S m i n cũng bằng d , vì d là khoảng cách nhỏ nhất (đó là lý do tại sao các quan sát được hợp nhất trước). Vì vậy, trong trường hợp này, C-Index luôn là 0. Nó duy trì 0 miễn là chỉ các cụm đơn được hợp nhất. Điều này có nghĩa là phân cụm tối ưu theo C-Index sẽ luôn bao gồm một cụm các cụm chứa hai quan sát và các singletons còn lại. Điều này có nghĩa là Chỉ số C không được áp dụng cho phân cụm theo cấp bậc? Tôi có làm điều gì sai? Tôi đã tìm kiếm rất nhiều, nhưng không thể tìm thấy bất kỳ lời giải thích phù hợp. Ai đó có thể giới thiệu cho tôi một số tài nguyên có sẵn miễn phí trên internet không? Hoặc, nếu không, ít nhất là một cuốn sách tôi có thể cố gắng để có được tại thư viện trường đại học của tôi?
Cảm ơn trước!