Tôi muốn so sánh sự khác biệt giữa cùng một từ được đề cập trong các nguồn khác nhau. Đó là, cách các tác giả khác nhau trong cách sử dụng các từ không xác định, chẳng hạn như "dân chủ".
Một kế hoạch ngắn gọn là
- Lấy những cuốn sách đề cập đến thuật ngữ "dân chủ" làm văn bản đơn giản
- Trong mỗi cuốn sách, thay thế
democracy
bằngdemocracy_%AuthorName%
- Huấn luyện một
word2vec
người mẫu trên những cuốn sách này - Tính khoảng cách giữa
democracy_AuthorA
,democracy_AuthorB
và các đề cập được dán nhãn lại khác của "dân chủ"
Vì vậy, "dân chủ" của mỗi tác giả có một vectơ riêng, được sử dụng để so sánh.
Nhưng dường như word2vec
đòi hỏi nhiều hơn một vài cuốn sách (mỗi từ được dán nhãn lại chỉ xảy ra trong một tập hợp con của sách) để đào tạo các vectơ đáng tin cậy. Các trang chính thức khuyến cáo bộ dữ liệu bao gồm hàng tỷ từ.
Tôi chỉ muốn hỏi làm thế nào lớn nên là tập hợp con của một cuốn sách của tác giả để suy luận như vậy với word2vec
hoặc các công cụ thay thế, nếu có sẵn?
window
bộ thông số bao nhiêu từ trong bối cảnh được sử dụng để đào tạo các mô hình cho văn bản của bạn w