Những bộ dữ liệu có sẵn miễn phí nào tôi có thể sử dụng để huấn luyện bộ phân loại văn bản?
Chúng tôi đang cố gắng tăng cường sự tham gia của người dùng bằng cách giới thiệu nội dung có liên quan nhất cho anh ấy, vì vậy chúng tôi nghĩ Nếu chúng tôi phân loại nội dung của chúng tôi dựa trên một túi từ được xác định trước, chúng tôi có thể đề xuất cho anh ấy nội dung hấp dẫn bằng cách nhận phản hồi của anh ấy về số lượng bài đăng ngẫu nhiên đã được phân loại trước.
Chúng ta có thể sử dụng thông tin này để giới thiệu cho anh ta các xung được dán nhãn với các lớp đó. Nhưng chúng tôi đã tìm thấy Nếu chúng tôi sử dụng một túi các từ được xác định trước không liên quan đến nội dung của chúng tôi, vectơ đặc trưng sẽ có đầy đủ các số không, các danh mục có thể không liên quan đến nội dung của chúng tôi. Vì vậy, vì những lý do đó, chúng tôi đã thử một giải pháp khác sẽ phân cụm nội dung của chúng tôi không phân loại nó.
Cảm ơn :)