Tôi có một tập dữ liệu có thuộc tính lớp nhị phân. Có 623 trường hợp với lớp +1 (ung thư dương tính) và 101.671 trường hợp với lớp -1 (ung thư âm tính).
Tôi đã thử các thuật toán khác nhau (Naive Bayes, Random Forest, AODE, C4.5) và tất cả chúng đều có tỷ lệ âm tính giả không thể chấp nhận được. Rừng ngẫu nhiên có độ chính xác dự đoán tổng thể cao nhất (99,5%) và tỷ lệ âm tính giả thấp nhất, nhưng vẫn bỏ lỡ 79% các nhóm dương tính (nghĩa là không phát hiện được 79% khối u ác tính).
Bất kỳ ý tưởng làm thế nào tôi có thể cải thiện tình trạng này?
Cảm ơn!