H: Cách tiêu chuẩn để phân cụm dữ liệu bằng cách sử dụng Quy trình Dirichlet là gì?
Khi sử dụng cụm lấy mẫu Gibbs xuất hiện và biến mất trong quá trình lấy mẫu. Bên cạnh đó, chúng tôi có một vấn đề nhận dạng do phân phối sau là bất biến đối với việc dán lại cụm. Vì vậy, chúng ta không thể nói đó là cụm của một người dùng mà là hai người dùng nằm trong cùng một cụm (đó là ).
Chúng ta có thể tóm tắt các bài tập lớp sao cho, nếu là phép gán cụm của điểm , thì bây giờ chúng ta không chỉ có mà còn ?
Đây là những lựa chọn thay thế tôi tìm thấy và tại sao tôi nghĩ rằng chúng không đầy đủ hoặc sai lầm.
(1) Lấy mẫu DP-GMM + Gibbs + ma trận nhầm lẫn dựa trên cặp
Để sử dụng Mô hình hỗn hợp Gaussian của quy trình Dirichlet (DP-GMM) cho một cụm tôi đã triển khai bài báo này trong đó các tác giả đề xuất DP-GMM để ước tính mật độ bằng cách lấy mẫu Gibbs.
Để khám phá hiệu suất phân cụm, họ nói:
Vì số lượng thành phần thay đổi trong chuỗi [MCMC], nên người ta sẽ cần tạo một ma trận nhầm lẫn cho thấy tần số của từng cặp dữ liệu được gán cho cùng một thành phần cho toàn bộ chuỗi, xem Hình 6.
Nhược điểm : Đây không phải là một cụm "hoàn chỉnh" thực sự mà là một cụm theo cặp. Hình này trông rất đẹp vì chúng ta biết các cụm thực và sắp xếp ma trận cho phù hợp.
(2) Lấy mẫu DP-GMM + Gibbs + mẫu cho đến khi không có gì thay đổi
Tôi đã tìm kiếm và tôi thấy một số người tuyên bố thực hiện phân cụm dựa trên Quy trình Dirichlet bằng cách sử dụng bộ lấy mẫu Gibbs. Ví dụ, bài đăng này xem xét rằng chuỗi hội tụ khi không có nhiều thay đổi về số lượng cụm hoặc phương tiện, và do đó có được các bản tóm tắt từ đó.
Nhược điểm : Tôi không chắc điều này được cho phép vì nếu tôi không sai:
(a) có thể có các chuyển đổi nhãn trong MCMC.
(b) ngay cả trong phân phối cố định, bộ lấy mẫu có thể tạo ra một số cụm theo thời gian.
(3) Lấy mẫu DP-GMM + Gibbs + chọn mẫu có phân vùng rất có thể
Trong bài báo này , các tác giả nói:
Sau một thời gian đốt cháy của người Hồi giáo, các mẫu không thiên vị từ phân phối sau của IGMM có thể được rút ra từ bộ lấy mẫu Gibbs. Một cụm cứng có thể được tìm thấy bằng cách vẽ nhiều mẫu như vậy và sử dụng mẫu có khả năng khớp cao nhất của các biến chỉ báo lớp. Chúng tôi sử dụng một triển khai IGMM được sửa đổi được viết bởi M. Mandel .
Nhược điểm : Trừ khi đây là Bộ lấy mẫu Gibbs thu gọn, trong đó chúng tôi chỉ lấy mẫu các bài tập, chúng tôi có thể tính nhưng không phải là biên . (Thay vào đó, có phải là một cách thực hành tốt để có trạng thái với cao nhất ?)
(4) DP-GMM với suy luận đa dạng :
Tôi đã thấy rằng một số thư viện sử dụng suy luận đa dạng. Tôi không biết nhiều về suy luận biến đổi nhưng tôi đoán rằng bạn không có vấn đề về nhận dạng ở đó. Tuy nhiên, tôi muốn bám vào các phương pháp MCMC (nếu có thể).
Bất kỳ tài liệu tham khảo sẽ hữu ích.