Có một vài điều người ta nên nhận thức.
Giống như hầu hết các tiêu chí phân cụm nội bộ , Calinski-Harabasz là một thiết bị heuristic. Cách thích hợp để sử dụng nó là so sánh các giải pháp phân cụm thu được trên cùng một dữ liệu, - các giải pháp khác nhau theo số lượng cụm hoặc theo phương pháp phân cụm được sử dụng.
Không có giá trị giới hạn "chấp nhận được". Bạn chỉ cần so sánh giá trị CH bằng mắt. Giá trị càng cao, "tốt hơn" là giải pháp. Nếu trên biểu đồ đường của các giá trị CH xuất hiện một giải pháp cho đỉnh hoặc ít nhất là khuỷu tay đột ngột, hãy chọn nó. Nếu, ngược lại, dòng trơn tru - ngang hoặc tăng dần hoặc giảm dần - thì không có lý do gì để thích một giải pháp cho người khác.
Tiêu chí CH dựa trên hệ tư tưởng ANOVA. Do đó, nó ngụ ý rằng các đối tượng được nhóm nằm trong không gian Euclide của các biến tỷ lệ (không phải thứ tự hoặc nhị phân hoặc danh nghĩa). Nếu dữ liệu được nhóm không phải là các đối tượng X biến mà là một ma trận khác biệt giữa các đối tượng thì thước đo độ không giống nhau phải là (bình phương) khoảng cách euclide (hoặc, tệ hơn, là khoảng cách số liệu khác tiếp cận khoảng cách euclide theo tính chất).
Tiêu chí CH phù hợp nhất trong trường hợp khi các cụm có ít nhiều hình cầu và nhỏ gọn ở giữa (chẳng hạn như phân phối bình thường, chẳng hạn) . Các điều kiện khác là bằng nhau, CH có xu hướng thích các giải pháp cụm với các cụm bao gồm cùng một số lượng đối tượng.1
Hãy quan sát một ví dụ. Dưới đây là một biểu đồ phân tán dữ liệu được tạo thành 5 cụm phân tán thông thường nằm khá gần nhau.
Những dữ liệu này được phân cụm theo phương pháp liên kết trung bình phân cấp và tất cả các giải pháp cụm (tư cách thành viên cụm) từ 15 cụm thông qua giải pháp 2 cụm đã được lưu. Sau đó, hai tiêu chí phân cụm đã được áp dụng để so sánh các giải pháp và để chọn tiêu chí "tốt hơn", nếu có.
Âm mưu cho Calinski-Harabasz ở bên trái. Chúng tôi thấy rằng - trong ví dụ này - CH chỉ rõ ràng giải pháp 5 cụm (được gắn nhãn CLU5_1) là giải pháp tốt nhất. Âm mưu cho một tiêu chí phân cụm khác, C-Index (không dựa trên ý thức hệ ANOVA và phổ biến hơn trong ứng dụng của nó so với CH) ở bên phải. Đối với C-Index, giá trị thấp hơn cho thấy giải pháp "tốt hơn". Như cốt truyện cho thấy, giải pháp 15 cụm là chính thức tốt nhất. Nhưng hãy nhớ rằng với tiêu chí phân cụm địa hình gồ ghề là quan trọng trong quyết định hơn so với độ lớn của chính nó. Lưu ý có khuỷu tay ở giải pháp 5 cụm; Giải pháp 5 cụm vẫn tương đối tốt trong khi các giải pháp 4 hoặc 3 cụm xấu đi bởi những bước nhảy vọt. Vì chúng ta thường mong muốn có được "một giải pháp tốt hơn với ít cụm" hơn, nên việc lựa chọn giải pháp 5 cụm dường như cũng hợp lý trong thử nghiệm C-Index.
PS Bài đăng này cũng đưa ra câu hỏi liệu chúng ta có nên tin tưởng nhiều hơn tối đa thực tế (hoặc tối thiểu) của một tiêu chí phân cụm hay đúng hơn là một cảnh quan của âm mưu các giá trị của nó.
1 Ghi chú sau . Không hoàn toàn như vậy bằng văn bản. Các thăm dò của tôi trên các bộ dữ liệu mô phỏng thuyết phục tôi rằng CH không có sở thích phân phối hình dạng chuông so với phân tích thú mỏ vịt (chẳng hạn như trong một quả bóng) hoặc các cụm tròn trên các hình elip, - nếu giữ các phương sai tổng thể nội bào và tách rời trung tâm giống nhau. Tuy nhiên, một điều đáng lưu ý là nếu các cụm được yêu cầu (như thường lệ) không bị chồng lấp trong không gian thì một cấu hình cụm tốt với các cụm tròn sẽ dễ dàng bắt gặp hơn trong thực tế vì cấu hình tốt tương tự với các cụm hình chữ nhật ( Hiệu ứng "bút chì trong trường hợp"); điều đó không liên quan gì đến những thành kiến của một tiêu chí phân cụm.
Tổng quan về các tiêu chí phân cụm nội bộ và cách sử dụng chúng .