Tôi sẽ không sử dụng các mô hình hỗn hợp Gaussian , vì chúng yêu cầu các phân phối cấu thành cho tất cả đều bình thường. Bạn có số lượng, vì vậy GMM không phù hợp theo định nghĩa.
Phân bổ Dirichlet tiềm ẩn (công bố đầy đủ: Tôi thực sự không biết mô hình hóa chủ đề) yêu cầu dữ liệu của bạn phải đa dạng , nhưng bạn có thể đếm trong trường hợp đó, họ sẽ tính các lần xuất hiện của các loại khác nhau của một biến. Một khả năng khác là số lượng của bạn là số lượng các biến khác nhau, như có nhiều biến Poisson . Đây là một chút câu hỏi về bản thể học cho cách bạn nghĩ về dữ liệu của bạn.
Hãy xem xét một ví dụ đơn giản khi tôi đi đến cửa hàng tạp hóa vì tôi muốn một ít trái cây. Tôi sẽ mua một số lượng nhất định táo, cam, đào và chuối. Mỗi trong số đó có thể được coi là một biến Poisson riêng biệt. Khi tôi về nhà, tôi đặt tất cả chúng vào một bát trái cây. Sau này, khi tôi cảm thấy thích ăn vặt, tôi có thể thò tay vào bát mà không cần nhìn và lấy hai miếng trái cây (ví dụ: một quả táo và một quả đào). Đó có thể được coi là một sự rút ra từ một phân phối đa quốc gia. Trong cả hai trường hợp, tôi có vô số danh mục, nhưng chúng tôi nghĩ về chúng khác nhau. Trong trường hợp đầu tiên, các loại trái cây tôi sẽ mua được biết trước khi tôi đến cửa hàng tạp hóa, nhưng số lượng mua trong mỗi loại có thể khác nhau. Trong trường hợp thứ hai, tôi không biết mình sẽ chọn loại trái cây nào nhưng tôi biết tôi đang lấy hai loại trong số các loại có thể.
Nếu dữ liệu của bạn giống như ví dụ bát trái cây, LDA có thể phù hợp với bạn. Mặt khác, nếu chúng giống như ví dụ về cửa hàng tạp hóa, bạn có thể thử mô hình hỗn hợp hữu hạn Poisson . Đó là, bạn có thể sử dụng mô hình hỗn hợp với các bản phân phối khác với Gaussian / bình thường. GMM là phổ biến nhất cho đến nay; các bản phân phối khác (như Poisson) thì kỳ lạ hơn. Tôi không biết chúng được triển khai rộng rãi như thế nào trong phần mềm. Nếu bạn sử dụng R, Googling đã dẫn đến việc phát hiện ra ? PoisMixClus trong gói HTSCluster và gói rebmix (lưu ý tôi chưa bao giờ sử dụng hoặc thực hiện mô hình hỗn hợp Poisson). Có thể tìm thấy các triển khai cho phần mềm khác.
Thêm một số chi tiết cụ thể: Tôi muốn nói rằng LDA ít nhất là một kỹ thuật Bayes như GMM.
- Tôi nghi ngờ sự khác biệt quan trọng nhất giữa LDA và GMM là loại dữ liệu mà họ cho là bạn có.
- Bạn không thể so sánh chúng, vì chúng dành cho các loại dữ liệu khác nhau. (Tôi cũng không thực sự muốn so sánh LDA và Poisson MM, vì họ khái niệm hóa các số khác nhau.)
Tôi sẽ không phân đôi dữ liệu của bạn thành không / không khác không.