Tôi hiện đang tìm kiếm các bộ dữ liệu được gắn nhãn để đào tạo một mô hình để trích xuất các thực thể được đặt tên từ văn bản không chính thức (một cái gì đó tương tự như tweet). Bởi vì viết hoa và ngữ pháp thường thiếu trong các tài liệu trong bộ dữ liệu của tôi, tôi đang tìm kiếm dữ liệu tên miền "không chính thức" hơn một chút so với các bài báo và tạp chí mà nhiều hệ thống nhận dạng thực thể ngày nay có tên là Huân luyện vê.
Có khuyến nghị nào không? Cho đến nay tôi chỉ có thể tìm thấy 50 nghìn mã thông báo từ twitter được xuất bản ở đây .