Bộ dữ liệu cho nhận dạng thực thể được đặt tên trên văn bản không chính thức

18

Tôi hiện đang tìm kiếm các bộ dữ liệu được gắn nhãn để đào tạo một mô hình để trích xuất các thực thể được đặt tên từ văn bản không chính thức (một cái gì đó tương tự như tweet). Bởi vì viết hoa và ngữ pháp thường thiếu trong các tài liệu trong bộ dữ liệu của tôi, tôi đang tìm kiếm dữ liệu tên miền "không chính thức" hơn một chút so với các bài báo và tạp chí mà nhiều hệ thống nhận dạng thực thể ngày nay có tên là Huân luyện vê.

Có khuyến nghị nào không? Cho đến nay tôi chỉ có thể tìm thấy 50 nghìn mã thông báo từ twitter được xuất bản ở đây .

dataset nlp

— Madison tháng năm
nguồn

2

Đề nghị hỏi trên opendata.stackexchange.com

— Air

@Madison tháng năm. Bạn đã tìm thấy một bộ dữ liệu? Tôi đang tìm kiếm một cái gì đó tương tự. Cảm ơn.

— ahoffer

Tôi đã phải làm với tập tin twitter ner từ U. Washington (liên kết đến trong bài viết gốc).

— Madison ngày

FYI Corpus của văn bản được gắn thẻ (báo tiếng Anh hoặc bất kỳ văn bản được gắn thẻ nào)

— Franck Dernoncourt

Có bất kỳ văn bản tiếng Anh chú thích tốt liên quan?

— Achyuta nanda sahoo

6

Theo tôi hiểu, đây là những thuộc tính mà bạn đang tìm kiếm trong một tập dữ liệu mẫu:

Dữ liệu văn bản
Nó nên không chính thức, tức là có lỗi chính tả, tiếng lóng, và về cơ bản là một cái gì đó không được chỉnh sửa chuyên nghiệp
Một cái gì đó khác với Twitter (Tôi không đổ lỗi cho bạn, Twitter là một cách hữu ích nhưng được sử dụng quá mức nguồn dữ liệu mẫu trong khai thác văn bản)

Dưới đây là một số khuyến nghị:

Email từ kho thư SpamAssassin - lưu ý rằng cả hai bộ dữ liệu "ham" (không phải thư rác) và thư rác đều khả dụng
dữ liệu microblogPCU từ UCI, được lấy từ dữ liệu microblog của người dùng Sina Weibo - lưu ý, dữ liệu văn bản thô là sự pha trộn giữa tiếng Trung và tiếng Anh (bạn có thể thực hiện dịch máy tiếng Trung, chỉ lọc tiếng Anh hoặc sử dụng tiếng Anh như là)
Amazon Commerce đánh giá dữ liệu từ UCI
Trong bộ dữ liệu bag-o-words , hãy thử sử dụng email Enron
Bộ dữ liệu Twenty Newsgroups
Bộ sưu tập thư rác SMS tuyệt vời này
Bạn luôn có thể cạo (trích xuất) dữ liệu văn bản của mình từ Internet; Tôi không chắc chắn ngôn ngữ hoặc phần mềm thống kê bạn đang sử dụng, nhưng gói XPath có trụ sở có sẵn trong R ( rvest, scrapeR, vv) và Python để thực hiện điều này

— Hack-R
nguồn

1

Có bất kỳ bộ dữ liệu nào được chú thích với các thực thể được đặt tên không? Tôi tin rằng đó là những gì OP đang tìm kiếm.

— Ông Phil

3

Kiểm tra những điều này:

Kho lưu trữ tên miền thử nghiệm để khai thác thông tin: http://www.isi.edu/info-agents/RISE/reposeective.html

DBpedia: http://wiki.dbpedia.org/Doads32 ( gương )

Liên kết cập nhật:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-set

— Sreejithc321
nguồn

1

Vui lòng cập nhật các liên kết này vì không ai trong số họ đang làm việc nữa.

— Ông Phil

0

Một số nguồn mà tôi đã sử dụng:

CONLL Corpus cổ điển: Bộ dữ liệu CONLL
Một nguồn Kaggle đáng để thử: Kaggle NER Corpus
Bản phát hành lên bản 5.0: Ghi chú lên bản
Nhiệm vụ công nhận thực thể sinh học: Thực thể sinh học
Một bộ dữ liệu liên quan đến email khác: Bộ dữ liệu email Enron

Tôi nghĩ những bộ dữ liệu này sẽ giúp ích rất nhiều cho nhiệm vụ của bạn

— Gyan Ranjan
nguồn