Tôi đang tự hỏi làm thế nào để gắn nhãn (thẻ) câu / đoạn văn / tài liệu với doc2vec trong gensim - từ quan điểm thực tế.
Bạn có cần phải có mỗi câu / đoạn / tài liệu với nhãn duy nhất của riêng mình (ví dụ: "Sent_123") không? Điều này có vẻ hữu ích nếu bạn muốn nói "những từ hoặc câu nào giống với một câu cụ thể duy nhất có nhãn" Sent_123 ".
Bạn có thể có các nhãn được lặp lại dựa trên nội dung? Ví dụ: nếu mỗi câu / đoạn / tài liệu nói về một mục sản phẩm nhất định (và có nhiều câu / đoạn / tài liệu cho một mục sản phẩm nhất định), bạn có thể gắn nhãn các câu dựa trên mục đó và sau đó tính toán độ tương tự giữa một từ hoặc một câu và nhãn này (mà tôi đoán sẽ giống như trung bình của tất cả các câu có liên quan đến mục sản phẩm)?