Số lượng kỷ nguyên trong triển khai Gensim Word2Vec


14

Có một itertham số trong gensimtriển khai Word2Vec

class gensim.models.word2vec.Word2Vec (câu = Không, kích thước = 100, alpha = 0,025, window = 5, min_count = 5, max_vocab_size = Không, sample = 0, seed = 1, worker = 1, min_alpha = 0.0001, sg = 1, hs = 1, neg = 0, cbow_mean = 0, hashfxn =, iter = 1 , null_word = 0, trim_rule = Không, sort_vocab = 1)

chỉ định số lượng kỷ nguyên, nghĩa là:

iter = số lần lặp (epochs) trên kho văn bản.

Có ai biết liệu điều đó có giúp cải thiện mô hình trên kho văn bản không?

Có bất kỳ lý do tại sao iterđược đặt thành 1 theo mặc định? Không có nhiều tác dụng trong việc tăng không. kỷ nguyên?

Có bất kỳ đánh giá khoa học / thực nghiệm về cách đặt không. kỷ nguyên?

Không giống như nhiệm vụ phân loại / hồi quy, phương pháp tìm kiếm lưới sẽ không thực sự hoạt động do các vectơ được tạo theo cách không giám sát và hàm mục tiêu chỉ đơn giản bằng cách lấy mẫu mềm phân cấp hoặc lấy mẫu âm.

Có một cơ chế dừng sớm để cắt ngắn không. của kỷ nguyên một khi vectơ hội tụ? Và mục tiêu lấy mẫu mềm phân cấp hoặc tiêu cực có thể hội tụ?

Câu trả lời:


5

Việc tăng số lượng kỷ nguyên thường có lợi cho chất lượng của các từ đại diện. Trong các thử nghiệm tôi đã thực hiện trong đó mục tiêu là sử dụng các từ nhúng làm tính năng để phân loại văn bản đặt các kỷ nguyên thành 15 thay vì 5, tăng hiệu suất.


2

Tôi đã xem xét ở đây và thấy rằng giá trị mặc định đã thay đổi từ 1 thành 5. Rõ ràng các tác giả tin rằng nhiều kỷ nguyên sẽ cải thiện kết quả .

Tôi không thể nói từ kinh nghiệm, chưa.


1

Tăng số lần lặp (số epoch) làm tăng đáng kể thời gian đào tạo. Word2Vec chỉ cung cấp kết quả chất lượng nếu bạn cung cấp một lượng lớn tài liệu, do đó việc lặp lại thậm chí hai lần trên chúng là không hợp lý mặc dù điều này thực sự làm cho việc nhúng từ kết quả chính xác hơn.


1

Tôi đã đào tạo mô hình w2v của mình trên google news 300 cho [2, 10, 100] kỷ nguyên và phiên bản tốt nhất là trên 10 kỷ nguyên. Sau tất cả những chờ đợi đó, tôi đã bị sốc khi 100 kỷ nguyên là tồi tệ.

epoch   wall                    
------ ------                    
2       56 s                    
10      4m 44s (284s)           
100     47m 27s (2847 s)    
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.