Hồi quy rừng ngẫu nhiên để dự đoán chuỗi thời gian


10

Tôi đang cố gắng sử dụng hồi quy RF để đưa ra dự đoán về hiệu suất của nhà máy giấy.

Tôi có dữ liệu từng phút cho các đầu vào (tốc độ và lượng bột gỗ đi vào, v.v.) cũng như hiệu suất của máy (giấy được sản xuất, năng lượng do máy rút ra) và đang tìm kiếm để dự đoán 10 phút phía trước về các biến hiệu suất.

Tôi đã có 12 tháng dữ liệu, vì vậy đã tách nó thành 11 tháng cho tập huấn luyện và tháng cuối cùng để thử nghiệm.

Cho đến nay tôi đã tạo ra 10 tính năng mới có giá trị trễ từ 1-10 phút cho mỗi biến hiệu suất và sử dụng các tính năng này cũng như các đầu vào để đưa ra dự đoán. Hiệu suất trên bộ thử nghiệm khá tốt (hệ thống khá dễ đoán), nhưng tôi lo lắng rằng tôi đang thiếu thứ gì đó trong cách tiếp cận của mình.

Ví dụ, trong bài báo này , các tác giả nêu cách tiếp cận của họ trong việc kiểm tra khả năng dự đoán của mô hình rừng ngẫu nhiên của họ:

Việc mô phỏng tiến hành bằng cách lặp đi lặp lại thêm một tuần dữ liệu mới, đào tạo một mô hình mới dựa trên dữ liệu được cập nhật và dự đoán số lần bùng phát cho tuần tiếp theo

Điều này khác với việc sử dụng dữ liệu 'sau này' trong chuỗi thời gian như thử nghiệm như thế nào? Tôi có nên xác nhận mô hình hồi quy RF của mình với phương pháp này cũng như trên tập dữ liệu thử nghiệm không? Hơn nữa, cách tiếp cận 'tự phát' này đối với hồi quy rừng ngẫu nhiên có hợp lệ cho chuỗi thời gian hay không và tôi thậm chí có cần tạo nhiều biến bị trễ này không nếu tôi quan tâm đến dự đoán 10 phút trong tương lai?


2
RF không được thiết kế cho và không tích hợp rõ ràng các cân nhắc về thời gian. Cho rằng, tại sao sử dụng tất cả chúng cho phân tích này? Có rất nhiều phương pháp chuỗi thời gian ra khỏi đó. Chọn một.
Mike Hunter

2
@DJohnson Tôi nghĩ rằng tôi sẽ cố gắng bắt chước cách tiếp cận trong bài báo: thử RF và so sánh nó với ARIMA. Bạn có cho rằng điều này không đáng thời gian và chỉ sử dụng ARIMA?
KRS-vui

4
@DJohnson, các cơ chế của mô hình tự phát rất giống với mô hình hồi quy cắt ngang. Khi các tính năng bị trễ được xây dựng, tại sao không sử dụng RF như trong cài đặt cắt ngang? Tôi nghĩ thật công bằng khi thử chúng. Nhưng bạn đã đúng rằng các phương pháp khác phổ biến hơn trong chuỗi thời gian và OP cũng có thể được hưởng lợi từ việc khám phá chúng.
Richard Hardy

1
Quan điểm của tôi là RF giống như cái búa nơi mọi thứ trở thành cái đinh. Với dữ liệu như được mô tả bởi OP, lựa chọn đầu tiên của tôi sẽ là dữ liệu bảng hoặc mô hình gộp, không phải ARIMA.
Mike Hunter

5
Tôi tình cờ thấy điều này vừa rồi, và đọc bài báo được đề cập vài ngày trước. Tôi đang so sánh rừng ngẫu nhiên và LSTM để dự báo chuỗi thời gian đa biến. Thật thú vị, LSTM làm tốt hơn khi bao gồm ít thời gian hơn trong dữ liệu đào tạo, nhưng khi tôi thêm vào nhiều năm dữ liệu hơn, kết quả của cả hai phương pháp đều hội tụ đến kết quả thực. Tôi nghĩ rằng điều này chủ yếu là do các tính năng cung cấp đủ thông tin để vượt qua thành phần tạm thời. Dù sao, nghĩ rằng nó là thú vị. Ngoài ra, tôi chưa bao giờ thấy ARIMA hoạt động tốt trừ các trường hợp theo mùa rất rõ ràng và ARIMA đa biến là ...
Hobbes

Câu trả lời:


6

Điều này khác với việc sử dụng dữ liệu 'sau này' trong chuỗi thời gian như thử nghiệm như thế nào?

Cách tiếp cận mà bạn trích dẫn được gọi là dự báo "nguồn gốc cán": nguồn gốc mà chúng tôi dự báo là "chuyển tiếp" và dữ liệu đào tạo được cập nhật với thông tin mới có sẵn. Cách tiếp cận đơn giản hơn là "dự báo nguồn gốc đơn", trong đó chúng tôi chọn một nguồn gốc duy nhất.

Ưu điểm của dự báo nguồn gốc cuộn là nó mô phỏng một hệ thống dự báo theo thời gian . Trong dự báo nguồn gốc duy nhất, chúng tôi có thể tình cờ chọn một nguồn gốc mà hệ thống của chúng tôi hoạt động rất tốt (hoặc rất tệ), điều này có thể cho chúng tôi một ý tưởng không chính xác về hiệu suất hệ thống của chúng tôi.

Một nhược điểm của dự báo nguồn gốc cán là yêu cầu dữ liệu cao hơn. Nếu chúng tôi muốn dự báo 10 bước với ít nhất 50 quan sát lịch sử, thì chúng tôi có thể thực hiện nguồn gốc đơn này với 60 điểm dữ liệu tổng thể. Nhưng nếu chúng ta muốn thực hiện 10 nguồn gốc cuộn chồng chéo, thì chúng ta cần 70 điểm dữ liệu.

Nhược điểm khác là tất nhiên độ phức tạp cao hơn của nó.

Không cần phải nói, bạn cũng không nên sử dụng dữ liệu "sau này" trong dự báo nguồn gốc, mà chỉ sử dụng dữ liệu trước nguồn gốc bạn đang sử dụng trong mỗi lần lặp.

Tôi có nên xác nhận mô hình hồi quy RF của mình với phương pháp này cũng như trên tập dữ liệu thử nghiệm không?

Nếu bạn có đủ dữ liệu, đánh giá nguồn gốc cuộn sẽ luôn truyền cảm hứng cho tôi nhiều hơn so với đánh giá nguồn gốc duy nhất, bởi vì nó hy vọng sẽ làm giảm trung bình tác động của nguồn gốc.

Hơn nữa, cách tiếp cận 'tự phát' này đối với hồi quy rừng ngẫu nhiên có hợp lệ cho chuỗi thời gian hay không và tôi thậm chí có cần tạo nhiều biến bị trễ này không nếu tôi quan tâm đến dự đoán 10 phút trong tương lai?

Có, dự báo so với dự báo nguồn gốc duy nhất có giá trị cho bất kỳ bài tập dự đoán nào . Nó không phụ thuộc vào việc bạn sử dụng rừng ngẫu nhiên hay ARIMA hay bất cứ thứ gì khác.

Cho dù bạn cần các biến bị trễ của mình là điều chúng tôi không thể tư vấn cho bạn. Có lẽ tốt nhất là nói chuyện với một chuyên gia về vấn đề, người cũng có thể đề xuất các đầu vào khác. Chỉ cần thử RF của bạn với các đầu vào bị trễ so với không có. Và cũng so sánh với các tiêu chuẩn chuẩn như ARIMA hoặc ETS hoặc các phương pháp đơn giản hơn, có thể khó đánh bại một cách đáng ngạc nhiên .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.