Tôi tốt nghiệp ngành kinh doanh và kinh tế, những người hiện đang học thạc sĩ về kỹ thuật dữ liệu. Trong khi nghiên cứu hồi quy tuyến tính (LR) và sau đó phân tích chuỗi thời gian (TS), một câu hỏi xuất hiện trong đầu tôi. Tại sao tạo một phương thức hoàn toàn mới, tức là chuỗi thời gian (ARIMA), thay vì sử dụng nhiều hồi quy tuyến tính và thêm các biến bị trễ cho nó (với thứ tự độ trễ được xác định bằng ACF và PACF)? Vì vậy, giáo viên đề nghị tôi viết một bài luận nhỏ về vấn đề này. Tôi sẽ không đến để tìm kiếm sự giúp đỡ tay không, vì vậy tôi đã nghiên cứu về chủ đề này.
Tôi đã biết rằng khi sử dụng LR, nếu các giả định Gauss-Markov bị vi phạm, hồi quy OLS là không chính xác và điều này xảy ra khi sử dụng dữ liệu chuỗi thời gian (tự động tương quan, v.v.). (một câu hỏi khác về vấn đề này, một giả định của GM là các biến độc lập nên được phân phối bình thường? hay chỉ là biến phụ thuộc có điều kiện cho các biến độc lập?)
Tôi cũng biết rằng khi sử dụng hồi quy độ trễ phân tán, đó là điều tôi nghĩ rằng tôi đang đề xuất ở đây và sử dụng OLS để ước tính các tham số, tính đa hình giữa các biến có thể (rõ ràng) phát sinh, vì vậy ước tính sẽ sai.
Trong một bài viết tương tự về TS và LR ở đây, @IrishStat nói:
... Mô hình hồi quy là trường hợp cụ thể của Mô hình hàm truyền còn được gọi là mô hình hồi quy động hoặc mô hình XARMAX. Điểm nổi bật là nhận dạng mô hình theo chuỗi thời gian tức là sự khác biệt thích hợp, độ trễ thích hợp của X, cấu trúc ARIMA thích hợp, xác định thích hợp của cấu trúc xác định không xác định như Xung, Chuyển dịch cấp độ, Xu hướng thời gian địa phương, Xung theo mùa và Kết hợp các thay đổi trong tham số hoặc phương sai lỗi phải được xem xét.
(Tôi cũng đã đọc bài viết của anh ấy trong Autobox về Box Jenkins vs LR.) Nhưng điều này vẫn không giải quyết được câu hỏi của tôi (hoặc ít nhất nó không làm rõ các cơ chế khác nhau của RL và TS đối với tôi).
Rõ ràng là ngay cả với các biến bị trễ, các vấn đề OLS phát sinh và nó không hiệu quả cũng không đúng, nhưng khi sử dụng khả năng tối đa, các vấn đề này có tồn tại không? Tôi đã đọc rằng ARIMA được ước tính thông qua khả năng tối đa, do đó, nếu ước tính độ trễ của LR bằng ML thay vì OLS, thì nó có mang lại các hệ số "chính xác" không (giả sử rằng chúng tôi cũng bao gồm các thuật ngữ lỗi bị trễ, như MA theo thứ tự q).
Tóm lại, là vấn đề OLS? Là vấn đề được giải quyết áp dụng ML?