Làm cách nào để sử dụng từ nhúng để ánh xạ tài liệu tới vectơ đặc trưng, phù hợp để sử dụng với việc học có giám sát?
Một từ nhúng ánh xạ mỗi từ vào một vectơ , trong đó là một số không quá lớn (ví dụ: 500). Các từ nhúng phổ biến bao gồm word2vec và Găng tay .v ∈ R d d
Tôi muốn áp dụng học tập có giám sát để phân loại tài liệu. Tôi hiện đang ánh xạ mỗi tài liệu vào một vectơ đặc trưng bằng cách sử dụng biểu diễn túi từ, sau đó áp dụng trình phân loại ngoài giá. Tôi muốn thay thế vectơ đặc trưng của từ bằng một từ dựa trên cách nhúng từ được đào tạo sẵn, để tận dụng kiến thức ngữ nghĩa có trong từ nhúng. Có một cách tiêu chuẩn để làm điều đó?
Tôi có thể tưởng tượng một số khả năng, nhưng tôi không biết liệu có thứ gì đó có ý nghĩa nhất không. Cách tiếp cận ứng viên mà tôi đã xem xét:
Tôi có thể tính toán vectơ cho mỗi từ trong tài liệu và tính trung bình tất cả chúng. Tuy nhiên, điều này có vẻ như có thể mất rất nhiều thông tin. Ví dụ, với cách biểu thị túi từ, nếu có một vài từ có liên quan cao đến nhiệm vụ phân loại và hầu hết các từ không liên quan, trình phân loại có thể dễ dàng học được điều đó; nếu tôi tính trung bình các vectơ cho tất cả các từ trong tài liệu, bộ phân loại không có cơ hội.
Ghép các vectơ cho tất cả các từ không hoạt động, vì nó không dẫn đến một vectơ đặc trưng có kích thước cố định. Ngoài ra nó có vẻ như là một ý tưởng tồi bởi vì nó sẽ quá nhạy cảm với vị trí cụ thể của một từ.
Tôi có thể sử dụng từ nhúng để phân cụm từ vựng của tất cả các từ thành một cụm cố định, giả sử, 1000 cụm, trong đó tôi sử dụng độ tương tự cosine trên các vectơ như một thước đo độ tương tự của từ. Sau đó, thay vì một cụm từ, tôi có thể có một cụm túi: vectơ đặc trưng mà tôi cung cấp cho lớp này có thể là một vectơ 1000, trong đó thành phần thứ đếm số lượng từ trong tài liệu là một phần của cụm .tôi
Cho một từ , các từ nhúng này cho phép tôi tính toán một bộ gồm 20 từ giống nhau nhất hàng đầu và điểm tương tự của chúng . Tôi có thể điều chỉnh vectơ đặc trưng giống như từ bằng cách sử dụng cái này. Khi tôi thấy từ , ngoài việc tăng phần tử tương ứng với từ thêm , tôi cũng có thể tăng phần tử tương ứng với từ theo , tăng phần tử tương ứng với từ lên , v.v.w 1 , ... , w 20 s 1 , ... , s 20 w w 1 w 1 s 1 w 2 s 2
Có cách tiếp cận cụ thể nào có khả năng hoạt động tốt để phân loại tài liệu không?
Tôi không tìm kiếm đoạn2vec hoặc doc2vec; những người yêu cầu đào tạo trên một kho dữ liệu lớn và tôi không có kho dữ liệu lớn. Thay vào đó, tôi muốn sử dụng một từ nhúng hiện có.