Có cách nào để xác định số cụm tối ưu hay tôi chỉ nên thử các giá trị khác nhau và kiểm tra tỷ lệ lỗi để quyết định giá trị tốt nhất?
R
) tại đây: stackoverflow.com/a/15376462/1036500
Có cách nào để xác định số cụm tối ưu hay tôi chỉ nên thử các giá trị khác nhau và kiểm tra tỷ lệ lỗi để quyết định giá trị tốt nhất?
R
) tại đây: stackoverflow.com/a/15376462/1036500
Câu trả lời:
Phương pháp tôi sử dụng là sử dụng CCC (Tiêu chí phân cụm). Tôi tìm CCC để tăng tối đa khi tôi tăng số cụm lên 1, và sau đó quan sát khi CCC bắt đầu giảm. Tại thời điểm đó tôi lấy số cụm ở mức tối đa (cục bộ). Điều này sẽ tương tự như sử dụng một âm mưu scree để chọn số lượng các thành phần chính.
Báo cáo kỹ thuật của SAS Tiêu chí phân cụm khối A-108 ( pdf )
= số lượng quan sát n k = số trong cụm k p = số biến q = số cụmma trận dữ liệu X = n × p Ma trận M = q × p của cụm có nghĩa là Z = chỉ báo cụm ( z i k = 1 nếu obs . i trong cụm k , 0 nếu không)
Giả sử mỗi biến có nghĩa là 0:
, M = ( Z ' Z ) - 1 Z ' X
Ma trận S S (tổng) = T = X ′ X S S (giữa các cụm) ma trận = B = M ′ Z ′ Z M S S (trong cụm) ma trận = W = T - B
(dấu vết = tổng các phần tử đường chéo)
Xếp các cột của thành một cột dài.
Thoái về sản phẩm Kronecker của Z với p × p ma trận sắc
Tính R 2 cho hồi quy này - cùng R 2
Ý tưởng CCC là so sánh mà bạn nhận được cho một tập hợp các cụm nhất định với R 2 mà bạn sẽ có được bằng cách phân cụm một tập hợp các điểm được phân bố đồng đều trong không gian p chiều.