Tôi có một vấn đề phân loại với khoảng 1000 mẫu dương tính và 10000 mẫu âm tính trong tập huấn luyện. Vì vậy, tập dữ liệu này khá mất cân đối. Rừng ngẫu nhiên đồng bằng chỉ đang cố gắng đánh dấu tất cả các mẫu thử là một lớp đa số.
Một số câu trả lời hay về lấy mẫu phụ và rừng ngẫu nhiên có trọng số được đưa ra ở đây: Ý nghĩa của việc đào tạo một Cây tập hợp với các bộ dữ liệu rất thiên vị là gì?
Những phương pháp phân loại nào ngoài RF có thể xử lý vấn đề theo cách tốt nhất?