1) Làm cách nào tôi có thể thay đổi ngưỡng phân loại (tôi nghĩ là 0,5 theo mặc định) trong RandomForest trong sklearn?
2) làm thế nào tôi có thể dưới mẫu trong sklearn?
3) Tôi có kết quả sau từ trình phân loại RandomForest: [[1635 1297] [520 3624]]
precision recall f1-score support
class 0 0.76 0.56 0.64 2932
class 1 0.74 0.87 0.80 4144
avg / tổng 0,75 0,74 0,73 7076
đầu tiên, dữ liệu không cân bằng (30% từ lớp 0 và 70% từ lớp 1). Vì vậy, tôi nghĩ rằng trình phân loại có nhiều khả năng bị thiên vị cho lớp 1 có nghĩa là chuyển một số từ lớp 0 sang lớp 1 (có 1297 phân loại sai cho lớp 0 nhưng phân loại sai 520 cho lớp 1). Làm thế nào tôi có thể sửa lỗi này? nếu downsampling có thể giúp gì? hoặc thay đổi ngưỡng phân loại?
Cập nhật: lớp 0 có 40% dân số trong khi lớp 1 là 60%. Tuy nhiên, độ trôi từ lớp 0 đến lớp 1 (1297) cao trong khi tôi muốn điều này trở nên thấp.