Tôi đã rất ấn tượng với kết quả trong bài báo " Các đại diện phân phát về câu và tài liệu " của ICML 2014 của Le và Mikolov. Kỹ thuật mà họ mô tả, được gọi là "vectơ đoạn", học các biểu diễn không được giám sát của các đoạn văn bản / tài liệu dài tùy ý, dựa trên phần mở rộng của mô hình word2vec. Bài báo cáo báo cáo hiệu suất hiện đại về phân tích tình cảm bằng kỹ thuật này.
Tôi đã hy vọng đánh giá kỹ thuật này trên các vấn đề phân loại văn bản khác, như là một cách thay thế cho cách trình bày túi từ ngữ truyền thống. Tuy nhiên, tôi đã chạy qua một bài đăng của tác giả thứ hai trong một chủ đề trong nhóm Google word2vec khiến tôi phải tạm dừng:
Tôi đã cố gắng tái tạo kết quả của Quốc trong suốt mùa hè; Tôi có thể nhận được tỷ lệ lỗi trên bộ dữ liệu IMDB khoảng 9,4% - 10% (tùy thuộc vào mức độ chuẩn hóa văn bản tốt như thế nào). Tuy nhiên, tôi không thể đến gần với những gì Quốc đã báo cáo trong bài báo (lỗi 7,4%, đó là một sự khác biệt rất lớn) ... Tất nhiên chúng tôi cũng đã hỏi Quốc về mã; ông hứa sẽ xuất bản nó nhưng cho đến nay không có gì xảy ra. ... Tôi bắt đầu nghĩ rằng kết quả của Quốc thực sự không thể lặp lại.
Có ai đã thành công trong việc tái tạo những kết quả này chưa?