Mỗi thuật toán liên quan đến dữ liệu văn bản có một từ vựng. Trong trường hợp của word2vec, từ vựng bao gồm tất cả các từ trong kho văn bản đầu vào, hoặc ít nhất là những từ trên ngưỡng tần số tối thiểu.
Các thuật toán có xu hướng bỏ qua các từ nằm ngoài từ vựng của họ. Tuy nhiên, có nhiều cách để điều chỉnh lại vấn đề của bạn sao cho về cơ bản không có từ ngoài Từ vựng.
Hãy nhớ rằng các từ chỉ đơn giản là "mã thông báo" trong word2vec. Chúng có thể là ngrams hoặc chúng có thể là chữ cái. Một cách để xác định từ vựng của bạn là nói rằng mọi từ xuất hiện ít nhất X lần đều nằm trong từ vựng của bạn. Sau đó, các "âm tiết" phổ biến nhất (ngrams của các chữ cái) được thêm vào từ vựng của bạn. Sau đó, bạn thêm các chữ cái riêng lẻ vào từ vựng của bạn.
Theo cách này, bạn có thể định nghĩa bất kỳ từ nào là
- Một từ trong từ vựng của bạn
- Một bộ các âm tiết trong từ vựng của bạn
- Một tập hợp các chữ cái và âm tiết trong từ vựng của bạn