Giá trị chấp nhận được của tiêu chí Calinski & Harabasz (CH) là gì?


25

Tôi đã thực hiện một phân tích dữ liệu cố gắng phân cụm dữ liệu theo chiều dọc bằng cách sử dụng R và gói kml . Dữ liệu của tôi chứa khoảng 400 quỹ đạo riêng lẻ (như được gọi trong bài báo). Bạn có thể thấy kết quả của tôi trong hình sau:

nhập mô tả hình ảnh ở đây

Sau khi đọc chương 2.2 "Chọn số cụm tối ưu" trong bài báo tương ứng, tôi không nhận được câu trả lời nào. Tôi muốn có 3 cụm nhưng kết quả vẫn ổn với CH là 80. Thực tế tôi thậm chí không biết giá trị CH đại diện cho cái gì.

Vì vậy, câu hỏi của tôi, giá trị chấp nhận được của tiêu chí Calinski & Harabasz (CH) là gì?


hình ảnh giải pháp cụm của bạn là từ SPSS? có thể tính tiêu chí CH này trong SPSS không? Cảm ơn! :) b
berbelein

Chào mừng đến với trang web, @berbelein. Đây không phải là một câu trả lời cho câu hỏi của OP. Vui lòng chỉ sử dụng trường "Câu trả lời của bạn" để cung cấp câu trả lời. Nếu bạn có câu hỏi của riêng mình, hãy nhấp vào [ASK QUESTION]câu hỏi đó, sau đó chúng tôi có thể giúp bạn đúng cách. Vì bạn là người mới ở đây, bạn có thể muốn thực hiện chuyến tham quan của chúng tôi , nơi chứa thông tin cho người dùng mới.
gung - Phục hồi Monica

@berbelein các hình ảnh là từ R.
greg121

Câu trả lời:


40

Có một vài điều người ta nên nhận thức.

  • Giống như hầu hết các tiêu chí phân cụm nội bộ , Calinski-Harabasz là một thiết bị heuristic. Cách thích hợp để sử dụng nó là so sánh các giải pháp phân cụm thu được trên cùng một dữ liệu, - các giải pháp khác nhau theo số lượng cụm hoặc theo phương pháp phân cụm được sử dụng.

  • Không có giá trị giới hạn "chấp nhận được". Bạn chỉ cần so sánh giá trị CH bằng mắt. Giá trị càng cao, "tốt hơn" là giải pháp. Nếu trên biểu đồ đường của các giá trị CH xuất hiện một giải pháp cho đỉnh hoặc ít nhất là khuỷu tay đột ngột, hãy chọn nó. Nếu, ngược lại, dòng trơn tru - ngang hoặc tăng dần hoặc giảm dần - thì không có lý do gì để thích một giải pháp cho người khác.

  • Tiêu chí CH dựa trên hệ tư tưởng ANOVA. Do đó, nó ngụ ý rằng các đối tượng được nhóm nằm trong không gian Euclide của các biến tỷ lệ (không phải thứ tự hoặc nhị phân hoặc danh nghĩa). Nếu dữ liệu được nhóm không phải là các đối tượng X biến mà là một ma trận khác biệt giữa các đối tượng thì thước đo độ không giống nhau phải là (bình phương) khoảng cách euclide (hoặc, tệ hơn, là khoảng cách số liệu khác tiếp cận khoảng cách euclide theo tính chất).

  • Tiêu chí CH phù hợp nhất trong trường hợp khi các cụm có ít nhiều hình cầu và nhỏ gọn ở giữa (chẳng hạn như phân phối bình thường, chẳng hạn) . Các điều kiện khác là bằng nhau, CH có xu hướng thích các giải pháp cụm với các cụm bao gồm cùng một số lượng đối tượng.1

Hãy quan sát một ví dụ. Dưới đây là một biểu đồ phân tán dữ liệu được tạo thành 5 cụm phân tán thông thường nằm khá gần nhau.

nhập mô tả hình ảnh ở đây

Những dữ liệu này được phân cụm theo phương pháp liên kết trung bình phân cấp và tất cả các giải pháp cụm (tư cách thành viên cụm) từ 15 cụm thông qua giải pháp 2 cụm đã được lưu. Sau đó, hai tiêu chí phân cụm đã được áp dụng để so sánh các giải pháp và để chọn tiêu chí "tốt hơn", nếu có.

nhập mô tả hình ảnh ở đây

Âm mưu cho Calinski-Harabasz ở bên trái. Chúng tôi thấy rằng - trong ví dụ này - CH chỉ rõ ràng giải pháp 5 cụm (được gắn nhãn CLU5_1) là giải pháp tốt nhất. Âm mưu cho một tiêu chí phân cụm khác, C-Index (không dựa trên ý thức hệ ANOVA và phổ biến hơn trong ứng dụng của nó so với CH) ở bên phải. Đối với C-Index, giá trị thấp hơn cho thấy giải pháp "tốt hơn". Như cốt truyện cho thấy, giải pháp 15 cụm là chính thức tốt nhất. Nhưng hãy nhớ rằng với tiêu chí phân cụm địa hình gồ ghề là quan trọng trong quyết định hơn so với độ lớn của chính nó. Lưu ý có khuỷu tay ở giải pháp 5 cụm; Giải pháp 5 cụm vẫn tương đối tốt trong khi các giải pháp 4 hoặc 3 cụm xấu đi bởi những bước nhảy vọt. Vì chúng ta thường mong muốn có được "một giải pháp tốt hơn với ít cụm" hơn, nên việc lựa chọn giải pháp 5 cụm dường như cũng hợp lý trong thử nghiệm C-Index.

PS Bài đăng này cũng đưa ra câu hỏi liệu chúng ta có nên tin tưởng nhiều hơn tối đa thực tế (hoặc tối thiểu) của một tiêu chí phân cụm hay đúng hơn là một cảnh quan của âm mưu các giá trị của nó.


1 Ghi chú sau . Không hoàn toàn như vậy bằng văn bản. Các thăm dò của tôi trên các bộ dữ liệu mô phỏng thuyết phục tôi rằng CH không có sở thích phân phối hình dạng chuông so với phân tích thú mỏ vịt (chẳng hạn như trong một quả bóng) hoặc các cụm tròn trên các hình elip, - nếu giữ các phương sai tổng thể nội bào và tách rời trung tâm giống nhau. Tuy nhiên, một điều đáng lưu ý là nếu các cụm được yêu cầu (như thường lệ) không bị chồng lấp trong không gian thì một cấu hình cụm tốt với các cụm tròn sẽ dễ dàng bắt gặp hơn trong thực tế vì cấu hình tốt tương tự với các cụm hình chữ nhật ( Hiệu ứng "bút chì trong trường hợp"); điều đó không liên quan gì đến những thành kiến ​​của một tiêu chí phân cụm.

Tổng quan về các tiêu chí phân cụm nội bộ và cách sử dụng chúng .


Một người đọc có thể muốn xem số liệu thống kê câu hỏi.stackexchange.com/q/242360 / 3277 quá.
ttnphns

Tôi đã triển khai cho SPSS một số tiêu chí xác thực phân cụm phổ biến nhất, - vui lòng truy cập trang web của tôi, bộ sưu tập "Tiêu chí phân cụm".
ttnphns
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.