Tôi đã dành ba ngày để tìm tm
hiểu sau khi đọc một bản thảo của một người bạn nơi anh ta khám phá một văn bản văn bản với UCINET, hiển thị các đám mây văn bản, đồ thị mạng hai chế độ và Phân tích giá trị đơn (với đồ họa, sử dụng Stata). Tôi đã chạy theo một số lượng lớn các vấn đề: trên Mac OS X, có các vấn đề với Java đằng sau các thư viện như Snowball (xuất phát) hoặc Rgraphviz (biểu đồ).
Có thể một người nào đó điểm ra không gói - Tôi đã xem xét tm
, wordfish
và wordscores
, và biết về NLTK - nhưng nghiên cứu, nếu có thể với mã, trên dữ liệu văn bản, mà sử dụng thành công tm
hay cái gì khác để phân tích dữ liệu như các cuộc tranh luận của quốc hội hoặc văn bản pháp luật? Tôi dường như không thể tìm thấy nhiều về vấn đề này, và thậm chí ít mã hơn để học hỏi.
Dự án của riêng tôi là một cuộc tranh luận tại quốc hội kéo dài hai tháng, với các biến này được thông báo trong tệp CSV: phiên nghị viện, diễn giả, nhóm nghị sĩ, văn bản can thiệp bằng miệng. Tôi đang tìm kiếm sự khác biệt giữa các diễn giả và đặc biệt là giữa các nhóm nghị sĩ trong việc sử dụng các thuật ngữ hiếm và ít hiếm, ví dụ như "cuộc nói chuyện an ninh" chống lại cuộc nói chuyện "tự do dân sự".