Tôi đang cố gắng đưa ra dự đoán bằng mô hình rừng ngẫu nhiên trong R.
Tuy nhiên tôi gặp lỗi vì một số yếu tố có các giá trị khác nhau trong tập kiểm tra so với tập huấn luyện. Ví dụ: một yếu tố Cat_2
có các giá trị 34, 68, 76
, v.v., trong tập kiểm tra không xuất hiện trong tập huấn luyện. Thật không may, tôi không có quyền kiểm soát đối với Bộ kiểm tra ... Tôi phải sử dụng nó như hiện tại.
Cách giải quyết duy nhất của tôi là chuyển đổi các yếu tố có vấn đề trở lại giá trị số, sử dụng as.numeric()
. Nó hoạt động nhưng tôi không hài lòng lắm, vì các giá trị này là các mã không có ý nghĩa số ...
Bạn có nghĩ rằng sẽ có một giải pháp khác, để loại bỏ các giá trị mới khỏi bộ thử nghiệm không? Nhưng không loại bỏ tất cả các giá trị yếu tố khác (giả sử các giá trị 1, 2, 14, 32
, v.v.) có trong cả đào tạo và kiểm tra và chứa thông tin có khả năng hữu ích cho các dự đoán.