Phân loại văn bản-Vấn đề: Word2Vec / NN có phải là cách tiếp cận tốt nhất không?


10

Tôi đang tìm cách thiết kế một hệ thống đưa ra một đoạn văn bản sẽ có thể phân loại nó và xác định bối cảnh:

  1. Được đào tạo với các đoạn văn bản do người dùng tạo (như nhận xét / câu hỏi / câu trả lời)
  2. Mỗi mục trong tập huấn luyện sẽ được gắn thẻ. Vì vậy, ví dụ ("loại 1" ,, "đoạn văn bản")
  3. Sẽ có hàng trăm danh mục

Điều gì sẽ là cách tiếp cận tốt nhất để xây dựng một hệ thống như vậy? Tôi đã xem xét một vài lựa chọn khác nhau và sau đây là danh sách các giải pháp khả thi. Word2Vec / NN có phải là giải pháp tốt nhất vào lúc này không?

  1. Mạng kéo căng thần kinh đệ quy được cung cấp với dữ liệu Word2Vec trung bình
  2. RNTN và Vector Đoạn văn ( https://cs.stanford.edu/~quocle/par Đoạn_vector.pdf )?
  3. TF-IDF được sử dụng trong Mạng lưới niềm tin sâu sắc
  4. TF-IDF và hồi quy logistic
  5. Túi từ và phân loại Naive Bayes

Bạn có thể làm rõ những loại nào? Nó sẽ cần để có thể xử lý các danh mục mới và / hoặc những từ chưa thấy? Các yêu cầu liên quan đến các điều khoản không thường xuyên và các danh mục không nhìn thấy sẽ giúp thiết kế hệ thống.
NBartley 4/11/2015

Cảm ơn @NBartley. Những từ chưa thấy cũng sẽ là một xác suất cao. Ký sinh trùng đầu vào sẽ là nội dung do người dùng tạo, do đó khả năng các từ chưa nhìn thấy mới sẽ rất cao. Các danh mục sẽ được xác định, nhưng chúng tôi sẽ cần mở rộng danh sách danh mục theo thời gian. Cảm ơn
Shankar

Bạn nên kiểm tra Sense2vec quá arxiv.org/abs/1511,06388 . Tóm lại, đó là các từ nhúng kết hợp với gắn thẻ Part-Of-Speech. Nó đã báo cáo rằng nó làm cho các từ nhúng chính xác hơn bằng cách định nghĩa các từ đồng âm. Sẽ rất thú vị để xem nếu nó cũng cải thiện hiệu suất trong các nhiệm vụ phân loại.
wacax

Câu trả lời:


5

1) Max-Entropy (Hồi quy logistic) trên các vectơ TFIDF là điểm khởi đầu tốt cho nhiều tác vụ phân loại NLP.

2) Word2vec chắc chắn là thứ đáng để thử và so sánh với mô hình 1. Tôi sẽ đề nghị sử dụng hương vị Doc2Vec để xem các câu / đoạn văn.

Quốc Lê và Tomas Mikolov. Đại diện phân phối của câu và tài liệu. http://arxiv.org/pdf/1405.4053v2.pdf

Gensim (python) có một mô hình Doc2vec đẹp.


Cảm ơn @rushimg. Nếu các danh mục có liên quan chặt chẽ với nhau, tức là đoạn văn bản được sử dụng làm đầu vào có một lượng lớn các từ phổ biến, cách tiếp cận nào trong hai cách tiếp cận sẽ tốt hơn trong việc hiểu ngữ cảnh và phân biệt giữa hai?
Shankar

Tôi sẽ sử dụng mô hình Doc2Vec do thực tế là nó loại bỏ giả định bag-of-words của mô hình max-ent. Nếu tf-idf được sử dụng làm các tính năng trong mô hình max-ent thì điều này cũng sẽ làm giảm tác động của các từ phổ biến. Tôi nghĩ rằng thử cả hai phương pháp và điều chỉnh chúng sẽ là cách hành động tốt nhất.
rushimg
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.