Làm thế nào để xác định số lượng cụm trong K-có nghĩa là phân cụm?


19

Có cách nào để xác định số cụm tối ưu hay tôi chỉ nên thử các giá trị khác nhau và kiểm tra tỷ lệ lỗi để quyết định giá trị tốt nhất?


1
@berkay Làm thế nào để bạn xác định tỷ lệ lỗi cho phương pháp không giám sát này? (hoặc bạn có nghĩa là trong SS?)
chl

@chl, tôi có thể sử dụng tổng các lỗi bình phương cho tất cả các cụm hoặc độ chính xác tổng thể (trong trường hợp này tôi biết các nhãn lớp.)
berkay

3
@berkay Một thuật toán đơn giản để tìm các cụm số là tính toán WSS trung bình cho 20 lần chạy phương tiện k trên số cụm tăng dần (bắt đầu bằng 2 và kết thúc bằng nói 9 hoặc 10) và giữ nguyên giải pháp có WSS tối thiểu trên cụm này được thiết lập. Một phương pháp khác là thống kê Gap . Nhưng nếu bạn đã có các phiên bản được gắn nhãn, thì tại sao bạn lại thử một phương pháp không giám sát?
chl

@chl cảm ơn, câu hỏi hay, chúng tôi có thể đoán các cụm tùy thuộc vào các đặc điểm của nội dung, tôi đang phân tích các đặc điểm xâm nhập mới, bắt chước các ứng dụng hợp pháp.
berkay

2
Tôi đã trả lời một câu hỏi tương tự với nửa tá phương thức (sử dụng R) tại đây: stackoverflow.com/a/15376462/1036500
Ben

Câu trả lời:


8

Phương pháp tôi sử dụng là sử dụng CCC (Tiêu chí phân cụm). Tôi tìm CCC để tăng tối đa khi tôi tăng số cụm lên 1, và sau đó quan sát khi CCC bắt đầu giảm. Tại thời điểm đó tôi lấy số cụm ở mức tối đa (cục bộ). Điều này sẽ tương tự như sử dụng một âm mưu scree để chọn số lượng các thành phần chính.


Báo cáo kỹ thuật của SAS Tiêu chí phân cụm khối A-108 ( pdf )

= số lượng quan sát n k = số trong cụm k p = số biến q = số cụmma trận dữ liệu X = n × p Ma trận M = q × p của cụm có nghĩa là Z = chỉ báo cụm ( z i k = 1 nếu obs . i trong cụm k , 0 nếu không) n
nkk
p
q
Xn×p
Mq×p
Zztôik= =1tôik

Giả sử mỗi biến có nghĩa là 0:
, M = ( Z ' Z ) - 1 Z ' XZ'Z= =(n1,,nq)M= =(Z'Z)-1Z'X

Ma trận S S (tổng) = T = X X S S (giữa các cụm) ma trận = B = M Z Z M S S (trong cụm) ma trận = W = T - BSSTX'X
SSBM'Z'ZM
SSWT-B

(dấu vết = tổng các phần tử đường chéo)R2= =1-dấu vết (W)dấu vết(T)

Xếp các cột của thành một cột dài. Thoái về sản phẩm Kronecker của Z với p × p ma trận sắc Tính R 2 cho hồi quy này - cùng R 2X
Zp×p
R2R2

Ý tưởng CCC là so sánh mà bạn nhận được cho một tập hợp các cụm nhất định với R 2 mà bạn sẽ có được bằng cách phân cụm một tập hợp các điểm được phân bố đồng đều trong không gian p chiều.R2R2p


2
Có những tiêu chí khác ngoài CCC. Hãy xem Xác định số lượng cụm trong một tập dữ liệu , để xem các cụm chính.
Vincent Labatut
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.