Word2vec cần bao nhiêu dữ liệu đào tạo?

Tôi muốn so sánh sự khác biệt giữa cùng một từ được đề cập trong các nguồn khác nhau. Đó là, cách các tác giả khác nhau trong cách sử dụng các từ không xác định, chẳng hạn như "dân chủ".

Một kế hoạch ngắn gọn là

Lấy những cuốn sách đề cập đến thuật ngữ "dân chủ" làm văn bản đơn giản
Trong mỗi cuốn sách, thay thế democracybằngdemocracy_%AuthorName%
Huấn luyện một word2vecngười mẫu trên những cuốn sách này
Tính khoảng cách giữa democracy_AuthorA, democracy_AuthorBvà các đề cập được dán nhãn lại khác của "dân chủ"

Vì vậy, "dân chủ" của mỗi tác giả có một vectơ riêng, được sử dụng để so sánh.

Nhưng dường như word2vecđòi hỏi nhiều hơn một vài cuốn sách (mỗi từ được dán nhãn lại chỉ xảy ra trong một tập hợp con của sách) để đào tạo các vectơ đáng tin cậy. Các trang chính thức khuyến cáo bộ dữ liệu bao gồm hàng tỷ từ.

Tôi chỉ muốn hỏi làm thế nào lớn nên là tập hợp con của một cuốn sách của tác giả để suy luận như vậy với word2vechoặc các công cụ thay thế, nếu có sẵn?

text-mining word-embeddings

— Anton Tarasenko
nguồn

Có phải những cuốn sách bạn đang sử dụng chỉ theo chủ đề dân chủ, nếu không, liệu số liệu khoảng cách của bạn có bị ngập trong sự khác biệt lớn hơn giữa các nội dung sách không? Đây là một tác dụng phụ của vấn đề của bạn trong một không gian rất cao và bị chạm vào bởi lời nguyền của chiều. Có lẽ chỉ lấy một vùng văn bản nhỏ xung quanh từ quan tâm sẽ có ích, nhưng nó vẫn là một vấn đề với kích thước quan trọng.

— image_doctor

Vâng, đó là bản chất của điều đó. ở đây đi với một ẩn dụ có lẽ không nghĩ ra. Hãy tưởng tượng các chương của cuốn sách được thể hiện bằng màu sắc. Và một cuốn sách aa toàn bộ đại diện là hỗn hợp của tất cả các màu của các chương. Một cuốn sách về dân chủ ở Tây Âu có thể sẽ kết thúc với một màu đỏ tổng thể như là tổng của các chương của nó. Nếu chúng ta đại diện cho du lịch bằng màu xanh, một cuốn sách về Du lịch ở Cuba, với một chương duy nhất về dân chủ và nó ảnh hưởng đến sự phát triển kinh tế, sẽ có một màu xanh mạnh mẽ. Vì vậy, hai cuốn sách sẽ xuất hiện rất khác nhau khi được xem như một toàn thể.

— image_doctor

Đó là cách dễ tiếp cận hơn để nói những gì một nhà khoa học dữ liệu sẽ diễn đạt như các vectơ cho hai cuốn sách sẽ cách nhau rất xa trong không gian tính năng và do đó sẽ xuất hiện khá giống nhau. Thật sự rất khó để định lượng trước bao nhiêu ví dụ bạn sẽ cần mà không cần chơi với dữ liệu, nhưng ngôn ngữ thì tinh tế và xếp lớp nên bạn có thể sẽ muốn nhiều như bạn có thể nhận được .... và có thể hơn thế nữa. Cuối cùng, bạn sẽ không biết cho đến khi bạn cố gắng. Đó không phải là một câu trả lời cụ thể, nhưng trừ khi ai đó có kinh nghiệm trực tiếp làm điều tương tự, đó có lẽ là điều tốt nhất bạn sẽ nhận được.

— image_doctor

word2vec đã chỉ sử dụng "một vùng văn bản nhỏ xung quanh từ quan tâm." Các windowbộ thông số bao nhiêu từ trong bối cảnh được sử dụng để đào tạo các mô hình cho văn bản của bạn w

— jamesmf

@politicalscientist Tôi chưa hoàn thành dự án này.

— Anton Tarasenko

Nghe có vẻ như doc2vec (hoặc vectơ đoạn / ngữ cảnh) có thể phù hợp với vấn đề này.

Tóm lại, ngoài các vectơ từ, bạn thêm một "vectơ ngữ cảnh" (trong trường hợp của bạn, nhúng cho tác giả) được sử dụng để dự đoán các từ ngữ trung tâm hoặc ngữ cảnh.

Điều này có nghĩa là bạn sẽ được hưởng lợi từ tất cả các dữ liệu về "dân chủ" nhưng cũng trích xuất một nhúng cho tác giả đó, kết hợp sẽ cho phép bạn phân tích sự thiên vị của mỗi tác giả với dữ liệu hạn chế về mỗi tác giả.

Bạn có thể sử dụng triển khai của gensim . Các tài liệu bao gồm các liên kết đến các giấy tờ nguồn.

— một nửa
nguồn