Tôi đang cố gắng sử dụng hồi quy RF để đưa ra dự đoán về hiệu suất của nhà máy giấy.
Tôi có dữ liệu từng phút cho các đầu vào (tốc độ và lượng bột gỗ đi vào, v.v.) cũng như hiệu suất của máy (giấy được sản xuất, năng lượng do máy rút ra) và đang tìm kiếm để dự đoán 10 phút phía trước về các biến hiệu suất.
Tôi đã có 12 tháng dữ liệu, vì vậy đã tách nó thành 11 tháng cho tập huấn luyện và tháng cuối cùng để thử nghiệm.
Cho đến nay tôi đã tạo ra 10 tính năng mới có giá trị trễ từ 1-10 phút cho mỗi biến hiệu suất và sử dụng các tính năng này cũng như các đầu vào để đưa ra dự đoán. Hiệu suất trên bộ thử nghiệm khá tốt (hệ thống khá dễ đoán), nhưng tôi lo lắng rằng tôi đang thiếu thứ gì đó trong cách tiếp cận của mình.
Ví dụ, trong bài báo này , các tác giả nêu cách tiếp cận của họ trong việc kiểm tra khả năng dự đoán của mô hình rừng ngẫu nhiên của họ:
Việc mô phỏng tiến hành bằng cách lặp đi lặp lại thêm một tuần dữ liệu mới, đào tạo một mô hình mới dựa trên dữ liệu được cập nhật và dự đoán số lần bùng phát cho tuần tiếp theo
Điều này khác với việc sử dụng dữ liệu 'sau này' trong chuỗi thời gian như thử nghiệm như thế nào? Tôi có nên xác nhận mô hình hồi quy RF của mình với phương pháp này cũng như trên tập dữ liệu thử nghiệm không? Hơn nữa, cách tiếp cận 'tự phát' này đối với hồi quy rừng ngẫu nhiên có hợp lệ cho chuỗi thời gian hay không và tôi thậm chí có cần tạo nhiều biến bị trễ này không nếu tôi quan tâm đến dự đoán 10 phút trong tương lai?