So sánh hai Corpora bằng Mô hình chủ đề


6

Tôi muốn so sánh hai nhóm (hai bộ sưu tập văn bản khác nhau) bằng cách sử dụng Mô hình chủ đề. Tôi đã đào tạo mô hình riêng biệt trên hai bộ sưu tập và khớp thủ công các chủ đề tương tự dựa trên các từ thường gặp của chúng.

Tôi đã tự hỏi nếu có một cách có hệ thống để so sánh các chủ đề giữa hai tập đoàn và đo lường sự tương đồng của chúng.

Câu trả lời:


4

Trong mắt tôi, đây không phải là một cách tiếp cận hợp lệ.

Lưu ý rằng không có một mô hình chủ đề duy nhất (được đưa ra một số tham số như số lượng chủ đề và thuật toán cho mô hình chủ đề) cho một kho văn bản. Các lần chạy khác nhau với các hạt ngẫu nhiên khác nhau sẽ cung cấp cho bạn các mô hình chủ đề khác nhau cho cùng một kho văn bản.

Vì vậy, bất kỳ so sánh đi xuống để so sánh các mô hình chủ đề cụ thể, nhưng không so sánh với các mô hình.

Một cách tiếp cận với tính hợp lệ tốt hơn là kết hợp cả hai tập đoàn thành một siêu tập thể, tạo ra một mô hình chủ đề của nó và hơn là điều tra sự phân phối của các chủ đề liên quan đến tập đoàn phụ được hình thành bởi tập đoàn 1 và 2 ban đầu.


Cảm ơn câu trả lời tuyệt vời. Ý của bạn là gì khi điều tra sự phân phối của các chủ đề liên quan đến tập đoàn con được hình thành bởi tập đoàn gốc 1 và 2`? Bạn có thể vui lòng giải thích thêm?
Smith

1
@Smith: Bạn đã bao giờ làm một mô hình chủ đề? Bạn nên lấy một ma trận tài liệu chủ đề ra khỏi mô hình chủ đề của bạn hiển thị cho mỗi tài liệu trong kho văn bản một thành phần chủ đề. Kết hợp những dữ liệu này theo subcorpora kho văn bản của bạn được tạo từ và bạn có nó.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.