Tôi đang tìm cách thiết kế một hệ thống đưa ra một đoạn văn bản sẽ có thể phân loại nó và xác định bối cảnh:
- Được đào tạo với các đoạn văn bản do người dùng tạo (như nhận xét / câu hỏi / câu trả lời)
- Mỗi mục trong tập huấn luyện sẽ được gắn thẻ. Vì vậy, ví dụ ("loại 1" ,, "đoạn văn bản")
- Sẽ có hàng trăm danh mục
Điều gì sẽ là cách tiếp cận tốt nhất để xây dựng một hệ thống như vậy? Tôi đã xem xét một vài lựa chọn khác nhau và sau đây là danh sách các giải pháp khả thi. Word2Vec / NN có phải là giải pháp tốt nhất vào lúc này không?
- Mạng kéo căng thần kinh đệ quy được cung cấp với dữ liệu Word2Vec trung bình
- RNTN và Vector Đoạn văn ( https://cs.stanford.edu/~quocle/par Đoạn_vector.pdf )?
- TF-IDF được sử dụng trong Mạng lưới niềm tin sâu sắc
- TF-IDF và hồi quy logistic
- Túi từ và phân loại Naive Bayes
Bạn có thể làm rõ những loại nào? Nó sẽ cần để có thể xử lý các danh mục mới và / hoặc những từ chưa thấy? Các yêu cầu liên quan đến các điều khoản không thường xuyên và các danh mục không nhìn thấy sẽ giúp thiết kế hệ thống.
—
NBartley 4/11/2015
Cảm ơn @NBartley. Những từ chưa thấy cũng sẽ là một xác suất cao. Ký sinh trùng đầu vào sẽ là nội dung do người dùng tạo, do đó khả năng các từ chưa nhìn thấy mới sẽ rất cao. Các danh mục sẽ được xác định, nhưng chúng tôi sẽ cần mở rộng danh sách danh mục theo thời gian. Cảm ơn
—
Shankar
Bạn nên kiểm tra Sense2vec quá arxiv.org/abs/1511,06388 . Tóm lại, đó là các từ nhúng kết hợp với gắn thẻ Part-Of-Speech. Nó đã báo cáo rằng nó làm cho các từ nhúng chính xác hơn bằng cách định nghĩa các từ đồng âm. Sẽ rất thú vị để xem nếu nó cũng cải thiện hiệu suất trong các nhiệm vụ phân loại.
—
wacax