Tôi đã nhận được một tập lệnh R từ một người nào đó để chạy mô hình rừng ngẫu nhiên. Tôi đã sửa đổi và chạy nó với một số dữ liệu nhân viên. Chúng tôi đang cố gắng dự đoán sự tách biệt tự nguyện.
Dưới đây là một số thông tin bổ sung: đây là mô hình phân loại là 0 = nhân viên ở lại, 1 = nhân viên bị chấm dứt, chúng tôi hiện chỉ xem xét một tá biến dự đoán, dữ liệu "không cân bằng" trong đó các bản ghi thuật ngữ chiếm khoảng 7 % tổng số hồ sơ được thiết lập.
Tôi chạy mô hình với nhiều lựa chọn mtry và ntree nhưng giải quyết ở bên dưới. OOB là 6,8% mà tôi nghĩ là tốt nhưng ma trận nhầm lẫn dường như đã kể một câu chuyện khác để dự đoán các thuật ngữ vì tỷ lệ lỗi khá cao ở mức 92,79% Tôi có đúng không khi cho rằng tôi không thể dựa vào và sử dụng mô hình này bởi vì tỷ lệ lỗi cao để dự đoán các điều khoản? hoặc có điều gì tôi cũng có thể làm để sử dụng RF và nhận được tỷ lệ lỗi nhỏ hơn để dự đoán các thuật ngữ?
FOREST_model <- randomForest(theFormula, data=trainset, mtry=3, ntree=500, importance=TRUE, do.trace=100)
ntree OOB 1 2
100: 6.97% 0.47% 92.79%
200: 6.87% 0.36% 92.79%
300: 6.82% 0.33% 92.55%
400: 6.80% 0.29% 92.79%
500: 6.80% 0.29% 92.79%
> print(FOREST_model)
Call:
randomForest(formula = theFormula, data = trainset, mtry = 3, ntree = 500, importance = TRUE, do.trace = 100)
Type of random forest: classification
Number of trees: 500
No. of variables tried at each split: 3
OOB estimate of error rate: 6.8%
Confusion matrix:
0 1 class.error
0 5476 16 0.002913328
1 386 30 0.927884615
> nrow(trainset)
[1] 5908