Tôi phải đối phó với một vấn đề phân loại văn bản. Trình thu thập dữ liệu web thu thập dữ liệu các trang web của một tên miền nhất định và đối với mỗi trang web tôi muốn tìm hiểu xem nó có thuộc về một lớp cụ thể hay không. Đó là, nếu tôi gọi lớp này là Tích cực , mỗi trang web được thu thập thông tin thuộc về lớp Tích cực hoặc thuộc lớp Không tích cực .
Tôi đã có một bộ trang web đào tạo lớn cho lớp Tích cực . Nhưng làm thế nào để tạo một tập huấn luyện cho lớp Không tích cực mà đại diện nhất có thể? Ý tôi là, về cơ bản tôi có thể sử dụng mọi thứ cho lớp học đó. Tôi chỉ có thể thu thập một số trang tùy ý mà chắc chắn không thuộc về lớp Tích cực ? Tôi chắc chắn rằng hiệu suất của thuật toán phân loại văn bản (tôi thích sử dụng thuật toán Naive Bayes) phụ thuộc nhiều vào trang web tôi chọn cho lớp Không tích cực .
Vậy tôi phải làm gì? Ai đó có thể xin vui lòng cho tôi một lời khuyên? Cảm ơn rât nhiều!