Hiệu suất hiện đại được báo cáo của việc sử dụng vectơ đoạn để phân tích tình cảm đã được nhân rộng?

Tôi đã rất ấn tượng với kết quả trong bài báo " Các đại diện phân phát về câu và tài liệu " của ICML 2014 của Le và Mikolov. Kỹ thuật mà họ mô tả, được gọi là "vectơ đoạn", học các biểu diễn không được giám sát của các đoạn văn bản / tài liệu dài tùy ý, dựa trên phần mở rộng của mô hình word2vec. Bài báo cáo báo cáo hiệu suất hiện đại về phân tích tình cảm bằng kỹ thuật này.

Tôi đã hy vọng đánh giá kỹ thuật này trên các vấn đề phân loại văn bản khác, như là một cách thay thế cho cách trình bày túi từ ngữ truyền thống. Tuy nhiên, tôi đã chạy qua một bài đăng của tác giả thứ hai trong một chủ đề trong nhóm Google word2vec khiến tôi phải tạm dừng:

Tôi đã cố gắng tái tạo kết quả của Quốc trong suốt mùa hè; Tôi có thể nhận được tỷ lệ lỗi trên bộ dữ liệu IMDB khoảng 9,4% - 10% (tùy thuộc vào mức độ chuẩn hóa văn bản tốt như thế nào). Tuy nhiên, tôi không thể đến gần với những gì Quốc đã báo cáo trong bài báo (lỗi 7,4%, đó là một sự khác biệt rất lớn) ... Tất nhiên chúng tôi cũng đã hỏi Quốc về mã; ông hứa sẽ xuất bản nó nhưng cho đến nay không có gì xảy ra. ... Tôi bắt đầu nghĩ rằng kết quả của Quốc thực sự không thể lặp lại.

Có ai đã thành công trong việc tái tạo những kết quả này chưa?

— bskagss
nguồn

Tình hình này đã thay đổi chưa? Tôi biết rằng Gensim đã triển khai một phiên bản doc2vec (vectơ đoạn / tài liệu), xem: radimrehurek.com/gensim/models/doc2vec.html nhưng không cố gắng tái tạo kết quả trong bài báo được trích dẫn ở đây.

— Doctorambient

Có, đã có những nỗ lực tái tạo kết quả giấy bằng gensim : xem sổ ghi chép IP2thon doc2vec .

— Radim

Chú thích tại http://arxiv.org/abs/1412.5335 (một trong những tác giả là Tomas Mikolov) nói

Trong các thử nghiệm của chúng tôi, để phù hợp với kết quả từ (Le & Mikolov, 2014), chúng tôi đã làm theo đề xuất của Quốc Lê để sử dụng softmax phân cấp thay vì lấy mẫu âm tính. Tuy nhiên, điều này tạo ra kết quả chính xác 92,6% chỉ khi dữ liệu huấn luyện và kiểm tra không bị xáo trộn. Vì vậy, chúng tôi coi kết quả này là không hợp lệ.

— Mikhail Korobov
nguồn

Tôi không hiểu tại sao "không xáo trộn" ==> không hợp lệ. Không có sự phân chia rõ ràng giữa bộ tàu / bộ kiểm tra? Vì vậy, những gì là đào tạo / kiểm tra phụ thuộc vào cách bạn xáo trộn bộ dữ liệu (bản gốc)? Thứ tự của bộ kiểm tra không quan trọng (không có đánh giá động, phải không?). Và thứ tự của bộ huấn luyện không quan trọng lắm, ...

— capybaralet

@ user2429920 Nếu chúng nhận được sự khác biệt, thì rõ ràng thứ tự nào đó có vấn đề.

— JAB