Chỉ cần một số phần mở rộng cho nhận xét của Dikran Marsupial (xác thực chéo). Ý tưởng chính là chia dữ liệu của bạn thành các tập huấn luyện và xác nhận theo một cách nào đó, thử số lượng thành phần khác nhau và chọn thứ tốt nhất dựa trên các giá trị khả năng đào tạo và xác nhận tương ứng.
Khả năng cho GMM chỉ là theo định nghĩa, trong đó là số lượng thành phần (cụm) và , , là các tham số mô hình. Bằng cách thay đổi giá trị của bạn có thể vẽ khả năng GMM cho các bộ đào tạo và xác nhận như sau.K π μ Σ Kp(x|π,μ,Σ)=∑KπkN(x|μk,Σk)KπμΣK
Trong ví dụ này, rõ ràng là số lượng thành phần tối ưu là khoảng 20. Có video hay về điều này trên Coursera, và đó là nơi tôi có được bức ảnh trên.
Một phương pháp thường được sử dụng là tiêu chí thông tin Bayes (BIC) :
trong đó là khả năng, K số lượng tham số và số điểm dữ liệu. Nó có thể được hiểu là thêm một hình phạt cho số lượng tham số cho khả năng đăng nhập.L n
BIC=−2log(L)+Klog(n)
Ln