Tôi đang cố gắng so sánh trực quan cách ba ấn phẩm tin tức khác nhau bao gồm các chủ đề khác nhau (được xác định thông qua mô hình chủ đề LDA). Tôi có hai phương pháp liên quan để làm như vậy, nhưng đã nhận được nhiều phản hồi từ các đồng nghiệp rằng điều này không trực quan lắm. Tôi hy vọng ai đó ngoài kia có một ý tưởng tốt hơn để hình dung điều này.
Trong biểu đồ đầu tiên, tôi hiển thị tỷ lệ của từng chủ đề trong mỗi ấn phẩm, như vậy:
Điều này khá đơn giản và trực quan với hầu hết mọi người mà tôi đã nói chuyện. Tuy nhiên, thật khó để thấy sự khác biệt giữa các ấn phẩm. Tờ báo nào nói về chủ đề nào nhiều hơn?
Để có được điều này, tôi đã vẽ biểu đồ cho sự khác biệt giữa ấn phẩm có tỷ lệ chủ đề cao nhất và cao thứ hai, được tô màu bởi ấn phẩm có mức cao nhất. Như thế này:
Vì vậy, ví dụ, thanh khổng lồ cho bóng đá thực sự là khoảng cách giữa al-Ahram English và Daily News Ai Cập (số 2 về độ phủ bóng đá) và nó có màu đỏ vì Al-Ahram là số 1. Tương tự, các thử nghiệm có màu xanh vì Ai Cập Độc lập có tỷ lệ cao nhất và kích thước thanh là khoảng cách giữa Ai Cập Độc lập và Tin tức hàng ngày Ai Cập (số 2 một lần nữa).
Thực tế là tôi phải giải thích rằng tất cả trong hai đoạn là một dấu hiệu khá chắc chắn rằng biểu đồ thất bại trong bài kiểm tra tự túc. Thật khó để nói những gì thực sự đang diễn ra chỉ bằng cách nhìn vào nó.
Bất kỳ đề xuất chung về làm thế nào để làm nổi bật trực quan các ấn phẩm chi phối cho mỗi chủ đề một cách trực quan hơn?
Chỉnh sửa: Dữ liệu để chơi với: Đây là dput
đầu ra từ R , cũng như tệp CSV .
Chỉnh sửa 2: Đây là phiên bản sơ đồ chấm sơ bộ, với đường kính của các chấm tỷ lệ với tỷ lệ của chủ đề trong kho văn bản (đó là cách các chủ đề được sắp xếp ban đầu). Mặc dù tôi vẫn cần phải điều chỉnh nó nhiều hơn một chút, nhưng nó cảm thấy trực quan hơn rất nhiều so với những gì tôi đang làm trước đây. Cảm ơn mọi người!