Tôi muốn chỉ ra, vì đây là một trong những hit hàng đầu của Google cho chủ đề này, rằng Phân bổ Dirichlet tiềm ẩn (LDA), Quy trình Dirichlet phân cấp (HDP) và Phân bổ Dirichlet phân cấp (hLDA) đều là các mô hình riêng biệt.
Mô hình LDA tài liệu dưới dạng hỗn hợp dirichlet của một số chủ đề cố định - được người dùng chọn làm tham số của mô hình - lần lượt là hỗn hợp các từ dirichlet. Điều này tạo ra một cụm xác suất phẳng, mềm mại của các thuật ngữ thành chủ đề và tài liệu thành chủ đề.
HDP mô hình các chủ đề dưới dạng hỗn hợp các từ, giống như LDA, nhưng thay vì các tài liệu là hỗn hợp của một số chủ đề cố định, số lượng chủ đề được tạo bởi một quy trình dirichlet, dẫn đến số lượng chủ đề cũng là một biến ngẫu nhiên. Phần "phân cấp" của tên đề cập đến một cấp độ khác được thêm vào mô hình thế hệ (quy trình dirichlet tạo ra số lượng chủ đề), chứ không phải chính các chủ đề - các chủ đề vẫn là các cụm phẳng.
hLDA, mặt khác, là một bản phóng tác của LDA, mô hình hóa các chủ đề như là hỗn hợp của một cấp độ mới, khác biệt của các chủ đề, được rút ra từ các bản phân phối dirichletvà không xử lý. Nó vẫn coi số lượng chủ đề là một siêu tham số, nghĩa là độc lập với dữ liệu. Sự khác biệt là việc phân cụm hiện được phân cấp - nó học một cụm các nhóm chủ đề đầu tiên, đưa ra một mối quan hệ trừu tượng, tổng quát hơn giữa các chủ đề (và do đó, từ và tài liệu). Hãy nghĩ về nó giống như phân cụm các ngăn xếp trao đổi thành toán học, khoa học, lập trình, lịch sử, v.v. trái ngược với phân cụm khoa học dữ liệu và xác thực chéo thành một chủ đề thống kê và lập trình trừu tượng chia sẻ một số khái niệm, như kỹ thuật phần mềm, nhưng kỹ thuật phần mềm trao đổi được phân cụm ở cấp độ cụ thể hơn với trao đổi khoa học máy tính và sự tương đồng giữa tất cả các trao đổi được đề cập không xuất hiện nhiều cho đến khi lớp trên của cụm.