ngưỡng phân loại trong RandomForest-sklearn


9

1) Làm cách nào tôi có thể thay đổi ngưỡng phân loại (tôi nghĩ là 0,5 theo mặc định) trong RandomForest trong sklearn?

2) làm thế nào tôi có thể dưới mẫu trong sklearn?

3) Tôi có kết quả sau từ trình phân loại RandomForest: [[1635 1297] [520 3624]]

         precision    recall  f1-score   support

class 0       0.76      0.56      0.64      2932
class 1       0.74      0.87      0.80      4144

avg / tổng 0,75 0,74 0,73 7076

đầu tiên, dữ liệu không cân bằng (30% từ lớp 0 và 70% từ lớp 1). Vì vậy, tôi nghĩ rằng trình phân loại có nhiều khả năng bị thiên vị cho lớp 1 có nghĩa là chuyển một số từ lớp 0 sang lớp 1 (có 1297 phân loại sai cho lớp 0 nhưng phân loại sai 520 cho lớp 1). Làm thế nào tôi có thể sửa lỗi này? nếu downsampling có thể giúp gì? hoặc thay đổi ngưỡng phân loại?

Cập nhật: lớp 0 có 40% dân số trong khi lớp 1 là 60%. Tuy nhiên, độ trôi từ lớp 0 đến lớp 1 (1297) cao trong khi tôi muốn điều này trở nên thấp.

Câu trả lời:


7

Bạn thực sự có thể bao bọc bạn rừng ngẫu nhiên trong một lớp mà một predictphương thức gọi predict_probaphương thức của rừng ngẫu nhiên nội bộ và lớp đầu ra 1 chỉ khi nó cao hơn ngưỡng tùy chỉnh.

Ngoài ra, bạn có thể thiên vị thuật toán đào tạo bằng cách chuyển cao hơn sample_weightcho các mẫu từ lớp thiểu số.


Cảm ơn. Tôi đã suy nghĩ về việc tăng cân cho lớp học nhỏ. Tuy nhiên, tôi không thể thấy bất cứ điều gì trong trình phân loại RandomForest (có trong Trình phân loại SGD)
Người yêu dữ liệu lớn

Phương thức phù hợp chấp nhận một sample_weightparam (một trọng số cho mỗi tham số) rất linh hoạt và cho phép mô phỏng class_weight(một trọng lượng cho mỗi lớp mục tiêu).
ogrisel

Cảm ơn. khi tôi sử dụng CLF = clf.fit (X, Y, sample_weight = preprocessing.balance_weights (y) nó mang lại cho tôi ValueError: toán hạng không thể được phát sóng cùng với hình dạng y là nhị phân 0/1.
Big Data Lover

Hình dạng của là ygì? Tại sao bạn có khác biệt Yy?
ogrisel
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.