Đối với tác vụ xử lý ngôn ngữ tự nhiên (NLP), người ta thường sử dụng các vectơ word2vec như một cách nhúng cho các từ. Tuy nhiên, có thể có nhiều từ chưa biết mà các vectơ word2vec thu được chỉ đơn giản vì những từ này không được nhìn thấy thường xuyên trong dữ liệu đào tạo (nhiều cách triển khai sử dụng số lượng tối thiểu trước khi thêm từ vào từ vựng). Điều này đặc biệt có thể là trường hợp với văn bản từ ví dụ Twitter, nơi các từ thường bị sai chính tả.
Nên xử lý những từ chưa biết như vậy khi mô hình hóa một nhiệm vụ NLP như dự đoán tình cảm bằng cách sử dụng mạng ngắn hạn (LSTM)? Tôi thấy hai lựa chọn:
- Thêm mã thông báo 'từ chưa biết' vào từ điển word2vec.
- Xóa những từ chưa biết này để LSTM thậm chí không biết từ đó trong câu.
Cách ưa thích để xử lý những từ này là gì?