Tôi muốn so sánh sự khác biệt giữa cùng một từ được đề cập trong các nguồn khác nhau. Đó là, cách các tác giả khác nhau trong cách sử dụng các từ không xác định, chẳng hạn như "dân chủ".
Một kế hoạch ngắn gọn là
- Lấy những cuốn sách đề cập đến thuật ngữ "dân chủ" làm văn bản đơn giản
- Trong mỗi cuốn sách, thay thế
democracybằngdemocracy_%AuthorName% - Huấn luyện một
word2vecngười mẫu trên những cuốn sách này - Tính khoảng cách giữa
democracy_AuthorA,democracy_AuthorBvà các đề cập được dán nhãn lại khác của "dân chủ"
Vì vậy, "dân chủ" của mỗi tác giả có một vectơ riêng, được sử dụng để so sánh.
Nhưng dường như word2vecđòi hỏi nhiều hơn một vài cuốn sách (mỗi từ được dán nhãn lại chỉ xảy ra trong một tập hợp con của sách) để đào tạo các vectơ đáng tin cậy. Các trang chính thức khuyến cáo bộ dữ liệu bao gồm hàng tỷ từ.
Tôi chỉ muốn hỏi làm thế nào lớn nên là tập hợp con của một cuốn sách của tác giả để suy luận như vậy với word2vechoặc các công cụ thay thế, nếu có sẵn?
windowbộ thông số bao nhiêu từ trong bối cảnh được sử dụng để đào tạo các mô hình cho văn bản của bạn w