Hiện tại tôi đang làm việc trên một dự án để dự báo dữ liệu chuỗi thời gian (dữ liệu hàng tháng). Tôi đang sử dụng R để làm dự báo. Tôi có 1 biến phụ thuộc (y) và 3 biến độc lập (x1, x2, x3). Biến y có 73 quan sát và 3 biến còn lại (alos 73) cũng vậy. Từ tháng 1 năm 2009 đến tháng 1 năm 2015. Tôi đã kiểm tra các mối tương quan và giá trị p, và tất cả đều có ý nghĩa để đưa nó vào một mô hình. Câu hỏi của tôi là: Làm thế nào tôi có thể dự đoán tốt bằng cách sử dụng tất cả các biến độc lập? Tôi không có giá trị trong tương lai cho các biến này. Hãy nói rằng tôi muốn dự đoán biến y của tôi trong hơn 2 năm (năm 2017). Tôi có thể làm cái này như thế nào?
Tôi đã thử đoạn mã sau:
model = arima(y, order(0,2,0), xreg = externaldata)
Tôi có thể dự đoán giá trị y trong hơn 2 năm với mã này không?
Tôi cũng đã thử một mã hồi quy:
reg = lm(y ~ x1 + x2 + x3)
Nhưng làm thế nào để tôi dành thời gian trong mã này? Làm thế nào tôi có thể dự đoán giá trị y của tôi sẽ kết thúc trong 2 năm tới? Tôi là người mới để thống kê và dự báo. Tôi đã thực hiện một số đọc và cam trên giá trị độ trễ, nhưng làm cách nào tôi có thể sử dụng giá trị độ trễ trong mô hình để dự báo?
Trên thực tế câu hỏi chung của tôi là làm thế nào tôi có thể dự báo dữ liệu chuỗi thời gian với các biến bên ngoài không có giá trị trong tương lai?