Tôi dự định token hóa một số văn bản mô tả công việc. Tôi đã thử mã thông báo tiêu chuẩn bằng cách sử dụng khoảng trắng làm dấu phân cách. Tuy nhiên tôi nhận thấy rằng có một số biểu thức nhiều từ được phân tách bằng khoảng trắng, điều này có thể gây ra vấn đề chính xác trong quá trình xử lý tiếp theo. Vì vậy, tôi muốn có được tất cả các collocations thú vị / thông tin nhất trong các văn bản này.
Có gói nào tốt để thực hiện mã thông báo nhiều từ, bất kể ngôn ngữ lập trình cụ thể không? Ví dụ: "Anh ấy học Công nghệ thông tin" ===> "Anh ấy" "học" "Công nghệ thông tin".
Tôi đã nhận thấy NLTK (Python) có một số chức năng liên quan.
Mô-đun collocations: http://www.nltk.org/api/nltk.html#module-nltk.collocations
mô đun nltk.tokenize.mwe: http://www.nltk.org/api/nltk.tokenize.html#module-nltk.tokenize.mwe
Sự khác biệt giữa hai điều này là gì?
Lớp MWETokenizer trong mô-đun nltk.tokenize.mwe dường như hoạt động hướng tới mục tiêu của tôi. Tuy nhiên, MWETokenizer dường như yêu cầu tôi sử dụng phương thức xây dựng và phương thức .add_mwe để thêm các biểu thức nhiều từ. Có cách nào để sử dụng từ vựng biểu thức nhiều từ bên ngoài để đạt được điều này không? Nếu vậy, có bất kỳ từ vựng nhiều từ?
Cảm ơn!