Tôi không sử dụng R nhưng đây là một lịch trình mà tôi hy vọng sẽ giúp bạn tính toán giá trị của các tiêu chí phân cụm BIC hoặc AIC cho bất kỳ giải pháp phân cụm cụ thể nào.
Cách tiếp cận này tuân theo thuật toán SPSS Phân tích cụm hai bước (xem các công thức ở đó, bắt đầu từ chương "Số cụm", sau đó chuyển sang "Khoảng cách khả năng đăng nhập" trong đó ksi, khả năng đăng nhập, được xác định). BIC (hoặc AIC) đang được tính toán dựa trên khoảng cách khả năng đăng nhập. Tôi chỉ hiển thị tính toán dưới đây cho dữ liệu định lượng (công thức được đưa ra trong tài liệu SPSS tổng quát hơn và kết hợp cả dữ liệu phân loại; tôi chỉ thảo luận về "phần" dữ liệu định lượng của nó):
X is data matrix, N objects x P quantitative variables.
Y is column of length N designating cluster membership; clusters 1, 2,..., K.
1. Compute 1 x K row Nc showing number of objects in each cluster.
2. Compute P x K matrix Vc containing variances by clusters.
Use denominator "n", not "n-1", to compute those, because there may be clusters with just one object.
3. Compute P x 1 column containing variances for the whole sample. Use "n-1" denominator.
Then propagate the column to get P x K matrix V.
4. Compute log-likelihood LL, 1 x K row. LL = -Nc &* csum( ln(Vc + V)/2 ),
where "&*" means usual, elementwise multiplication;
"csum" means sum of elements within columns.
5. Compute BIC value. BIC = -2 * rsum(LL) + 2*K*P * ln(N),
where "rsum" means sum of elements within row.
6. Also could compute AIC value. AIC = -2 * rsum(LL) + 4*K*P
Note: By default SPSS TwoStep cluster procedure standardizes all
quantitative variables, therefore V consists of just 1s, it is constant 1.
V serves simply as an insurance against ln(0) case.
Tiêu chí phân cụm AIC và BIC không chỉ được sử dụng với phân cụm K-nghĩa. Chúng có thể hữu ích cho bất kỳ phương pháp phân cụm nào coi mật độ trong cụm là phương sai trong cụm. Vì AIC và BIC sẽ bị phạt vì "tham số quá mức", nên họ rõ ràng có xu hướng thích các giải pháp với ít cụm hơn. "Ít cụm hơn tách ra khỏi nhau" có thể là phương châm của họ.
Có thể có nhiều phiên bản khác nhau của tiêu chí phân cụm BIC / AIC. Cái tôi đã trình bày ở đây sử dụng Vc
, phương sai trong cụm , là thuật ngữ chính của khả năng đăng nhập. Một số phiên bản khác, có lẽ phù hợp hơn với phân cụm k-mean, có thể dựa trên khả năng ghi nhật ký trên các tổng bình phương trong cụm .
Các phiên bản pdf của tài liệu SPSS cùng mà tôi gọi.
Và cuối cùng, đây là công thức, tương ứng với mã giả ở trên và tài liệu; nó được lấy từ mô tả chức năng (macro) tôi đã viết cho người dùng SPSS. Nếu bạn có bất kỳ đề xuất để cải thiện các công thức xin vui lòng gửi bình luận hoặc câu trả lời.