Tôi đang đào tạo một mô hình phân loại với Rừng ngẫu nhiên để phân biệt giữa 6 loại. Dữ liệu giao dịch của tôi có khoảng 60k + quan sát và 35 biến. Đây là một ví dụ về cách nó trông như thế nào.
_________________________________________________
|user_id|acquisition_date|x_var_1|x_var_2| y_vay |
|-------|----------------|-------|-------|--------|
|111 | 2013-04-01 | 12 | US | group1 |
|222 | 2013-04-12 | 6 | PNG | group1 |
|333 | 2013-05-05 | 30 | DE | group2 |
|444 | 2013-05-10 | 78 | US | group3 |
|555 | 2013-06-15 | 15 | BR | group1 |
|666 | 2013-06-15 | 237 | FR | group6 |
Khi mô hình được tạo, tôi muốn ghi điểm quan sát từ vài tuần trước. Vì đã có những thay đổi đối với hệ thống, các quan sát gần đây sẽ giống với môi trường của các quan sát hiện tại mà tôi muốn dự đoán hơn. Do đó, tôi muốn tạo một biến trọng số để Rừng ngẫu nhiên sẽ quan trọng hơn đối với các quan sát gần đây.
Có ai biết nếu gói RandomForest trong R có thể xử lý trọng số cho mỗi lần quan sát không?
Ngoài ra, bạn có thể vui lòng đề xuất phương pháp tốt để tạo biến trọng số là gì không? Ví dụ, vì dữ liệu của tôi là từ năm 2013, tôi đã nghĩ rằng tôi có thể lấy số tháng kể từ ngày làm trọng số. Có ai thấy một vấn đề với phương pháp này?
Rất cám ơn trước!