Xử lý các từ chưa biết trong các tác vụ mô hình hóa ngôn ngữ bằng LSTM


11

Đối với tác vụ xử lý ngôn ngữ tự nhiên (NLP), người ta thường sử dụng các vectơ word2vec như một cách nhúng cho các từ. Tuy nhiên, có thể có nhiều từ chưa biết mà các vectơ word2vec thu được chỉ đơn giản vì những từ này không được nhìn thấy thường xuyên trong dữ liệu đào tạo (nhiều cách triển khai sử dụng số lượng tối thiểu trước khi thêm từ vào từ vựng). Điều này đặc biệt có thể là trường hợp với văn bản từ ví dụ Twitter, nơi các từ thường bị sai chính tả.

Nên xử lý những từ chưa biết như vậy khi mô hình hóa một nhiệm vụ NLP như dự đoán tình cảm bằng cách sử dụng mạng ngắn hạn (LSTM)? Tôi thấy hai lựa chọn:

  1. Thêm mã thông báo 'từ chưa biết' vào từ điển word2vec.
  2. Xóa những từ chưa biết này để LSTM thậm chí không biết từ đó trong câu.

Cách ưa thích để xử lý những từ này là gì?


2
Tôi đã trả lời một câu hỏi tương tự trước đó; trong khi câu hỏi sau đó không cụ thể đối với các LSTM, có vẻ như hầu hết những gì tôi đã viết ở đó sẽ có thể áp dụng được: stats.stackexchange.com/questions/163005/ Lỗi
fnl

Câu trả lời:


11

Tùy chọn 1 (thêm mã thông báo từ không xác định) là cách hầu hết mọi người giải quyết vấn đề này.

Tùy chọn 2 (xóa các từ chưa biết) là một ý tưởng tồi vì nó biến đổi câu theo cách không phù hợp với cách LSTM được đào tạo.

Một tùy chọn khác đã được phát triển gần đây là tạo ra một từ nhúng nhanh chóng cho mỗi từ bằng cách sử dụng mạng thần kinh tích chập hoặc LSTM riêng biệt xử lý các ký tự của từng từ một. Sử dụng kỹ thuật này, mô hình của bạn sẽ không bao giờ gặp phải một từ mà nó không thể tạo ra.


Xin chào Aaron, bạn có thể cho tôi một vài gợi ý (giấy tờ hoặc mã) sử dụng tùy chọn thứ ba của bạn không?
Tiên tri



1
Thêm một cái gần đây (EMNLP 2017) arxiv.org/abs/1707.06961 với mã github.com/yuvalpinter/Mimick
jayelm

-1

Ánh xạ các từ hiếm đến đơn giản có nghĩa là chúng tôi xóa các từ đó và thay thế chúng bằng mã thông báo trong dữ liệu đào tạo. Do đó mô hình của chúng tôi không biết bất kỳ từ hiếm. Đây là một hình thức làm mịn thô vì mô hình giả định rằng mã thông báo sẽ không bao giờ thực sự xảy ra trong dữ liệu thực hoặc tốt hơn là nó hoàn toàn bỏ qua các n-gram này.


4
Vui lòng thêm đáng kể vào câu trả lời này. Ví dụ: sao lưu xác nhận rằng "thêm mã thông báo từ không xác định là tùy chọn tốt nhất".
Jim
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.