Trợ giúp về NER trong NLTK


12

Tôi đã làm việc trong NLTK một thời gian bằng Python. Vấn đề tôi gặp phải là họ không có trợ giúp về đào tạo NER về NLTK với dữ liệu tùy chỉnh của tôi. Họ đã sử dụng MaxEnt và đào tạo nó trên văn phòng ACE. Tôi đã tìm kiếm trên web rất nhiều nhưng tôi không thể tìm thấy bất kỳ cách nào có thể được sử dụng để đào tạo NER của NLTK.

Nếu bất cứ ai cũng có thể cung cấp cho tôi bất kỳ liên kết / bài viết / blog nào, v.v. Và nếu tôi được chuyển đến bất kỳ liên kết / bài viết / blog nào, vv có thể giúp tôi ĐÀO TẠO NER cho dữ liệu của riêng tôi.

Đây là một câu hỏi được tìm kiếm rộng rãi và ít được trả lời. Có thể hữu ích cho ai đó trong tương lai có làm việc với NER.


Câu trả lời:


4

Đào tạo một mô hình, liên quan đến khai thác thông tin , nói chung và nhận dạng / phân giải thực thể có tên (NER) , nói riêng, được mô tả chi tiết trong Chương 7 của Sách NLTK , có sẵn trực tuyến tại URL này: http: //www.nltk .org / cuốn sách / ch07.html .

Ngoài ra, tôi nghĩ rằng bạn có thể tìm thấy câu trả lời hữu ích của tôi trên trang web Xác thực chéo . Nó có rất nhiều tài liệu tham khảo đến các nguồn liên quan về NER và các chủ đề liên quan cũng như các công cụ phần mềm liên quan khác nhau .


Họ không đề cập đến cách đào tạo mô hình NER trên dữ liệu tùy chỉnh, bạn có thể cho biết cách thực hiện không?
Hima Varsha

1
@HimaVarsha Tôi không phải là chuyên gia trong lĩnh vực này. Tuy nhiên, ... Tôi nghĩ rằng mô hình NLTK NER được đào tạo trước về văn bản conll2000 , do đó không có thông tin trong sách NLTK. Kiểm tra các tài nguyên sau: 1. nltk-trainer.readthedocs.io (rất có thể là những gì bạn cần; có thể là phần Đào tạo IOB Chunkers ). 2. sujitpal.blogspot.com/2012/11/ (cũng có thể hữu ích). 3. nlp.stanford.edu/software/crf-faq.shtml#a (trong trường hợp bạn sử dụng hoặc sẽ quyết định sử dụng phần mềm NER Stanford).
Alexanderr Blekh

Tôi nghĩ việc triển khai stanfordcrf có dữ liệu tùy chỉnh, nhưng NTLK NER chỉ được đào tạo trước. Chunkers đào tạo IOB chỉ là chunk phải không? Hay thậm chí là làm NER?
Hima Varsha

@HimaVarsha Xin hãy chú ý hơn đến lời khuyên bạn đang nhận được. Nếu bạn đọc bài đăng qua liên kết số 2 ở trên một cách cẩn thận, bạn sẽ thấy rằng mã ở đó có cả đào tạo và chạy mô hình NER. Tôi không nghĩ rằng tôi có thể giúp bạn ngoài những lời khuyên ở trên.
Alexanderr Blekh

3

Bài viết này có đủ tốt không? http://www.succeed-project.eu/wiki/index.php/NLTK#Input_format_for_training

Có lời giải thích về việc corpus sẽ trông như thế nào.

Dữ liệu của bạn cần phải ở định dạng IOB (chunktag thẻ từ) để làm cho nó hoạt động.
Eric NNP B-PERSON
là VB O Giám đốc điều hành
AT B-NP
NN I-NP
của IN O
Google NNP B-ORGANIZATION


1
Sẽ là lý tưởng để đăng một bản tóm tắt ngắn của bài viết trong câu trả lời này.
sheldonkreger

1

Tôi thấy hướng dẫn này khá hữu ích: Hướng dẫn đầy đủ để xây dựng Trình nhận dạng thực thể có tên của riêng bạn với Python Ông sử dụng kho văn bản Groningen có nghĩa là Ngân hàng Groningen (GMB) để huấn luyện khối NER của mình.

Sau đó, bạn có thể kiểm tra hướng dẫn này từ cùng một người: Huấn luyện Hệ thống NER bằng Bộ dữ liệu lớn Nơi anh ta sử dụng scikit learn để cải thiện hiệu suất của hệ thống của mình.

Cuối cùng, một số hướng dẫn thực sự hữu ích có thể được tìm thấy ở đây: hướng dẫn NLTK Anh chàng này có một kênh youtube với rất nhiều hướng dẫn trong nhiều chủ đề (ML, NLP, Python ...)

Hy vọng nó giúp.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.