Đầu tiên là một cảnh báo. Trong phân cụm thường không có ai "trả lời đúng" - một cụm có thể tốt hơn một số liệu theo một số liệu và điều ngược lại có thể đúng khi sử dụng một số liệu khác. Và trong một số tình huống, hai cụm khác nhau có thể có thể xảy ra như nhau trong cùng một số liệu.
Có nói rằng, bạn có thể muốn có một cái nhìn về Quy trình Dirichlet . Cũng xem hướng dẫn này .
Nếu bạn bắt đầu với mô hình Hỗn hợp Gaussian, bạn có cùng một vấn đề như với phương tiện k - rằng bạn phải chọn số lượng cụm. Bạn có thể sử dụng bằng chứng mô hình, nhưng nó sẽ không mạnh trong trường hợp này. Vì vậy, mẹo là sử dụng Quy trình Dirichlet trước các thành phần hỗn hợp, sau đó cho phép bạn có số lượng thành phần hỗn hợp vô hạn, nhưng mô hình sẽ (thường) sẽ tự động tìm số thành phần "chính xác" (theo giả định của ngươi mâu).
Lưu ý rằng bạn vẫn phải chỉ định tham số nồng độ của Quy trình Dirichlet trước đó. Đối với các giá trị nhỏ của , các mẫu từ DP có thể bao gồm một số lượng nhỏ các biện pháp nguyên tử có trọng lượng lớn. Đối với các giá trị lớn, hầu hết các mẫu có khả năng là khác biệt (tập trung). Bạn có thể sử dụng siêu ưu tiên cho tham số nồng độ và sau đó suy ra giá trị của nó từ dữ liệu và siêu ưu tiên này có thể mơ hồ phù hợp vì cho phép nhiều giá trị khác nhau có thể. Tuy nhiên, khi có đủ dữ liệu, tham số nồng độ sẽ không còn quan trọng nữa và siêu ưu tiên này có thể bị loại bỏ.alphaαα