Tính năng học tập không giám sát cho NER


11

Tôi đã triển khai hệ thống NER với việc sử dụng thuật toán CRF với các tính năng thủ công của tôi đã cho kết quả khá tốt. Có điều là tôi đã sử dụng rất nhiều tính năng khác nhau bao gồm thẻ POS và bổ đề.

Bây giờ tôi muốn tạo cùng một NER cho các ngôn ngữ khác nhau. Vấn đề ở đây là tôi không thể sử dụng thẻ POS và bổ đề. Tôi bắt đầu đọc các bài viết về học tập sâu và học tập tính năng không giám sát.

Câu hỏi của tôi là:

Có thể sử dụng các phương pháp để học tính năng không giám sát với thuật toán CRF không? Có ai đã thử điều này và có bất kỳ kết quả tốt? Có bài viết hay hướng dẫn nào về vấn đề này không?

Tôi vẫn chưa hoàn toàn hiểu cách tạo tính năng này vì vậy tôi không muốn dành nhiều thời gian cho những thứ không hiệu quả. Vì vậy, bất kỳ thông tin sẽ thực sự hữu ích. Để tạo ra toàn bộ hệ thống NER dựa trên học tập sâu là một chút đến bây giờ.

Câu trả lời:


5

Có, hoàn toàn có thể kết hợp việc học tập không giám sát với mô hình CRF. Cụ thể, tôi khuyên bạn nên khám phá khả năng sử dụng các tính năng của word2vec làm đầu vào cho CRF của bạn.

Word2vec đào tạo để phân biệt giữa các từ phù hợp với ngữ cảnh cụ thể và các từ được chọn ngẫu nhiên. Chọn trọng số của mô hình sau đó có thể được hiểu là biểu diễn vectơ dày đặc của một từ đã cho.

Các vectơ dày đặc này có đặc tính hấp dẫn là các từ giống nhau về mặt ngữ nghĩa hoặc cú pháp có các biểu diễn vectơ tương tự nhau. Số học vectơ cơ bản thậm chí còn tiết lộ một số mối quan hệ được học thú vị giữa các từ.
Ví dụ: vectơ ("Paris") - vectơ ("Pháp") + vectơ ("Ý") mang lại một vectơ khá giống với vectơ ("Rome").

Ở mức cao, bạn có thể nghĩ các biểu diễn word2vec tương tự như các biểu diễn LDA hoặc LSA, theo nghĩa là bạn có thể chuyển đổi một vectơ đầu vào thưa thớt thành một vectơ đầu ra dày đặc chứa thông tin tương tự từ.

Đối với vấn đề đó, LDA và LSA cũng là các tùy chọn hợp lệ cho việc học tính năng không giám sát - cả hai đều cố gắng biểu diễn các từ dưới dạng kết hợp của "chủ đề" và biểu diễn từ dày đặc.

Đối với văn bản tiếng Anh, Google phân phối các mô hình word2vec được đặt trước trên bộ dữ liệu Google News khổng lồ 100 tỷ từ, nhưng đối với các ngôn ngữ khác, bạn sẽ phải đào tạo mô hình của riêng mình.


Này, nắm tay tôi muốn cảm ơn bạn cho câu trả lời của bạn. Tôi có một câu hỏi nữa. Vectơ từ được trả về từ thuật toán word2vec có giá trị float, vì vậy các từ như lớn và lớn hơn sẽ có vectơ gần trong không gian vectơ, nhưng giá trị của vectơ có thể hoàn toàn khác nhau. Ví dụ: big = [0,1, 0,2, 0,3] và lớn hơn = [0,11, 0,21, 0,31]. Đó không phải là một vấn đề đối với thuật toán CRF, bởi vì thuật toán này sẽ coi chúng là không phải là simillar? Có bất kỳ xử lý bổ sung nào có thể được thực hiện trước khi sử dụng vectơ từ này trong CRF không? Tôi hy vọng câu hỏi của tôi là đủ rõ ràng.
MaticDiba

4

Trong bài báo năm 2014 này ( GitHub ), các tác giả đã so sánh nhiều chiến lược kết hợp các từ nhúng trong hệ thống NER dựa trên CRF, bao gồm nhúng dày đặc, nhúng binerized, nhúng cụm và phương pháp nguyên mẫu mới . Sử dụng các vectơ dày đặc trực tiếp theo đề xuất của vlad là cách đơn giản nhất nhưng cũng ít hiệu quả nhất trong nhiều đánh giá.

Tôi đã thực hiện ý tưởng nguyên mẫu trong dự án NER dành riêng cho tên miền của mình và nó hoạt động khá tốt đối với tôi.


3

Tôi mới trễ 5 tháng nhưng với CRFSuite bạn thực sự có thể sử dụng các tính năng nổi đó dưới dạng số chứ không phải dưới dạng chuỗi. Đối với điều này, bạn chỉ cần phát minh một nhãn duy nhất cho mỗi thứ nguyên sau đó thêm ":" theo sau là giá trị.

Ví dụ: một từ "rừng rậm" được biểu thị theo 5 chiều: 0,1 0,4 0,8 0,2 0,9

Sau đó CRFSuite sẽ lấy tính năng từ + đó là:

LABEL F1: 0,1 f2: 0,4 f3: 0,8 f4: 0,2 f5: 0,9

nơi tất nhiên bạn thay thế `` LABEL '' bằng một chuỗi thực tế và bạn tách tất cả các khoảng trắng bằng các tab (đó là định dạng cho CRFSuite).

Không chắc chắn mặc dù cho các gói khác.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.