Đề xuất bộ dữ liệu đào tạo phân loại văn bản


9

Những bộ dữ liệu có sẵn miễn phí nào tôi có thể sử dụng để huấn luyện bộ phân loại văn bản?

Chúng tôi đang cố gắng tăng cường sự tham gia của người dùng bằng cách giới thiệu nội dung có liên quan nhất cho anh ấy, vì vậy chúng tôi nghĩ Nếu chúng tôi phân loại nội dung của chúng tôi dựa trên một túi từ được xác định trước, chúng tôi có thể đề xuất cho anh ấy nội dung hấp dẫn bằng cách nhận phản hồi của anh ấy về số lượng bài đăng ngẫu nhiên đã được phân loại trước.

Chúng ta có thể sử dụng thông tin này để giới thiệu cho anh ta các xung được dán nhãn với các lớp đó. Nhưng chúng tôi đã tìm thấy Nếu chúng tôi sử dụng một túi các từ được xác định trước không liên quan đến nội dung của chúng tôi, vectơ đặc trưng sẽ có đầy đủ các số không, các danh mục có thể không liên quan đến nội dung của chúng tôi. Vì vậy, vì những lý do đó, chúng tôi đã thử một giải pháp khác sẽ phân cụm nội dung của chúng tôi không phân loại nó.

Cảm ơn :)


1
Tôi nghĩ rằng chi tiết hơn về vấn đề của bạn là cần thiết trước khi bất cứ ai có thể đề nghị một bộ dữ liệu.
Neil Slater

3
Cho mục đích gì? Lọc thư rác? Phân tích tình cảm? Nếu không có mục đích rõ ràng thì rất khó để đề xuất một bộ dữ liệu.
lsdr

@lsdr Nhìn vào các câu trả lời, có vẻ như câu hỏi không nhất thiết cần thêm chi tiết.
Amir Ali Akbari

@AmirAliAkbari Tôi nghĩ rằng họ đã đến sau khi chỉnh sửa. Dù sao, tôi đã rút lại phiếu bầu gần của mình.
Rubens

Một nơi thích hợp hơn cho câu hỏi này là opendata.stackexchange.com
sheldonkreger

Câu trả lời:


14

Một số bộ dữ liệu tiêu chuẩn để phân loại văn bản là nhóm 20 Tin tức, Reuters (với 8 và 52 lớp) và WebKb. Bạn có thể tìm thấy tất cả chúng ở đây .


Cảm ơn :), tôi đã truy cập nó trước đây nhưng tôi thấy phân loại của nó yếu không đủ trừu tượng hoặc có thể không liên quan đến nội dung của tôi
Abdelmawla


5

Có một loạt các bộ dữ liệu được UC Irvine cung cấp miễn phí để chơi ở đây . Trong số các bộ dữ liệu đó , có vài chục bộ dữ liệu văn bản có thể giúp các bạn thực hiện nhiệm vụ của mình.

Đó là các loại bộ dữ liệu chung, vì vậy tùy thuộc vào mục đích của bạn, chúng không nên được sử dụng làm dữ liệu duy nhất để đào tạo mô hình của bạn, hoặc mô hình khác của bạn - trong khi nó có thể hoạt động - sẽ không tạo ra kết quả chất lượng.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.