Vì vậy, trong mô hình văn bản (không được giám sát), Phân bổ Dirichlet tiềm ẩn (LDA) là một phiên bản Bayes của Phân tích ngữ nghĩa tiềm ẩn xác suất (PLSA). Về cơ bản, LDA = PLSA + Dirichlet trước các tham số của nó. Tôi hiểu rằng LDA hiện là thuật toán tham chiếu và được triển khai trong các gói khác nhau, trong khi PLSA không nên được sử dụng nữa.
Nhưng trong phân loại văn bản (có giám sát), chúng ta có thể thực hiện chính xác điều tương tự đối với trình phân loại Naive Bayes đa cực và đặt Dirichlet trước các tham số. Nhưng tôi không nghĩ rằng tôi đã từng thấy ai làm điều đó và phiên bản "ước tính điểm" của Naive Bayes đa quốc gia dường như là phiên bản được triển khai trong hầu hết các gói. Có bất kỳ lý do cho điều đó?