Trong mắt tôi, đây không phải là một cách tiếp cận hợp lệ.
Lưu ý rằng không có một mô hình chủ đề duy nhất (được đưa ra một số tham số như số lượng chủ đề và thuật toán cho mô hình chủ đề) cho một kho văn bản. Các lần chạy khác nhau với các hạt ngẫu nhiên khác nhau sẽ cung cấp cho bạn các mô hình chủ đề khác nhau cho cùng một kho văn bản.
Vì vậy, bất kỳ so sánh đi xuống để so sánh các mô hình chủ đề cụ thể, nhưng không so sánh với các mô hình.
Một cách tiếp cận với tính hợp lệ tốt hơn là kết hợp cả hai tập đoàn thành một siêu tập thể, tạo ra một mô hình chủ đề của nó và hơn là điều tra sự phân phối của các chủ đề liên quan đến tập đoàn phụ được hình thành bởi tập đoàn 1 và 2 ban đầu.