Bộ dữ liệu cho nhận dạng thực thể được đặt tên trên văn bản không chính thức


18

Tôi hiện đang tìm kiếm các bộ dữ liệu được gắn nhãn để đào tạo một mô hình để trích xuất các thực thể được đặt tên từ văn bản không chính thức (một cái gì đó tương tự như tweet). Bởi vì viết hoa và ngữ pháp thường thiếu trong các tài liệu trong bộ dữ liệu của tôi, tôi đang tìm kiếm dữ liệu tên miền "không chính thức" hơn một chút so với các bài báo và tạp chí mà nhiều hệ thống nhận dạng thực thể ngày nay có tên là Huân luyện vê.

Có khuyến nghị nào không? Cho đến nay tôi chỉ có thể tìm thấy 50 nghìn mã thông báo từ twitter được xuất bản ở đây .


2
Đề nghị hỏi trên opendata.stackexchange.com
Air

@Madison tháng năm. Bạn đã tìm thấy một bộ dữ liệu? Tôi đang tìm kiếm một cái gì đó tương tự. Cảm ơn.
ahoffer

Tôi đã phải làm với tập tin twitter ner từ U. Washington (liên kết đến trong bài viết gốc).
Madison ngày


Có bất kỳ văn bản tiếng Anh chú thích tốt liên quan?
Achyuta nanda sahoo

Câu trả lời:


6

Theo tôi hiểu, đây là những thuộc tính mà bạn đang tìm kiếm trong một tập dữ liệu mẫu:

  1. Dữ liệu văn bản
  2. Nó nên không chính thức, tức là có lỗi chính tả, tiếng lóng, và về cơ bản là một cái gì đó không được chỉnh sửa chuyên nghiệp
  3. Một cái gì đó khác với Twitter (Tôi không đổ lỗi cho bạn, Twitter là một cách hữu ích nhưng được sử dụng quá mức nguồn dữ liệu mẫu trong khai thác văn bản)

Dưới đây là một số khuyến nghị:

  1. Email từ kho thư SpamAssassin - lưu ý rằng cả hai bộ dữ liệu "ham" (không phải thư rác) và thư rác đều khả dụng
  2. dữ liệu microblogPCU từ UCI, được lấy từ dữ liệu microblog của người dùng Sina Weibo - lưu ý, dữ liệu văn bản thô là sự pha trộn giữa tiếng Trung và tiếng Anh (bạn có thể thực hiện dịch máy tiếng Trung, chỉ lọc tiếng Anh hoặc sử dụng tiếng Anh như là)
  3. Amazon Commerce đánh giá dữ liệu từ UCI
  4. Trong bộ dữ liệu bag-o-words , hãy thử sử dụng email Enron
  5. Bộ dữ liệu Twenty Newsgroups
  6. Bộ sưu tập thư rác SMS tuyệt vời này
  7. Bạn luôn có thể cạo (trích xuất) dữ liệu văn bản của mình từ Internet; Tôi không chắc chắn ngôn ngữ hoặc phần mềm thống kê bạn đang sử dụng, nhưng gói XPath có trụ sở có sẵn trong R ( rvest, scrapeR, vv) và Python để thực hiện điều này

1
Có bất kỳ bộ dữ liệu nào được chú thích với các thực thể được đặt tên không? Tôi tin rằng đó là những gì OP đang tìm kiếm.
Ông Phil


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.