Làm thế nào word2vec có thể được sử dụng để xác định các từ chưa nhìn thấy và liên quan chúng với dữ liệu đã được đào tạo


11

Tôi đã làm việc trên mô hình gensim word2vec và thấy nó thực sự thú vị. Tôi đang xen vào việc tìm kiếm một từ chưa biết / chưa thấy khi được kiểm tra với mô hình sẽ có thể nhận được các thuật ngữ tương tự từ mô hình được đào tạo.

Điều này có thể không? Word2vec có thể được điều chỉnh cho điều này? Hoặc tập thể cần phải có tất cả các từ mà tôi muốn tìm sự tương đồng.

Câu trả lời:


9

Mỗi thuật toán liên quan đến dữ liệu văn bản có một từ vựng. Trong trường hợp của word2vec, từ vựng bao gồm tất cả các từ trong kho văn bản đầu vào, hoặc ít nhất là những từ trên ngưỡng tần số tối thiểu.

Các thuật toán có xu hướng bỏ qua các từ nằm ngoài từ vựng của họ. Tuy nhiên, có nhiều cách để điều chỉnh lại vấn đề của bạn sao cho về cơ bản không có từ ngoài Từ vựng.

Hãy nhớ rằng các từ chỉ đơn giản là "mã thông báo" trong word2vec. Chúng có thể là ngrams hoặc chúng có thể là chữ cái. Một cách để xác định từ vựng của bạn là nói rằng mọi từ xuất hiện ít nhất X lần đều nằm trong từ vựng của bạn. Sau đó, các "âm tiết" phổ biến nhất (ngrams của các chữ cái) được thêm vào từ vựng của bạn. Sau đó, bạn thêm các chữ cái riêng lẻ vào từ vựng của bạn.

Theo cách này, bạn có thể định nghĩa bất kỳ từ nào là

  1. Một từ trong từ vựng của bạn
  2. Một bộ các âm tiết trong từ vựng của bạn
  3. Một tập hợp các chữ cái và âm tiết trong từ vựng của bạn

3

word2vec coi các từ là nguyên tử. Để có được các vectơ có ý nghĩa cho các từ chưa biết, bạn phải

  • thay đổi những nguyên tử này là gì, ví dụ: chuyển sang chữ n-gram như trong câu trả lời của jamesmf, hoặc
  • sử dụng một mô hình khác nhìn rõ ràng những gì bên trong lời nói của bạn, ví dụ như mô hình CWE trên https://github.com/Leonard-Xu/Cwe rất dễ sử dụng.

1
github.com/facebookresearch/fastText dường như hoạt động tốt
Joachim Wagner

vâng, tôi đã thử nhưng không hoạt động tốt với các nhiệm vụ như phân đoạn hình thái.
gaurus


0

Word2Vec và FastText không thành công nếu từ này không có trong từ vựng. Ném một lỗi. Nó đưa ra một danh sách điểm cho các từ liên quan Nhưng một từ không nhìn thấy sẽ không có trong từ vựng phải không? Vì vậy, làm thế nào để giải quyết vấn đề từ vô hình?

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.