So sánh mô hình giữa mô hình ARIMA và mô hình hồi quy


8

Tôi thực sự gặp khó khăn khi tìm cách so sánh ARIMA và mô hình hồi quy. Tôi hiểu cách đánh giá các mô hình ARIMA với nhau và các loại mô hình hồi quy khác nhau (ví dụ: hồi quy so với hồi quy động với các lỗi AR) với nhau, tuy nhiên tôi không thể thấy nhiều điểm tương đồng giữa mô hình ARIMA và các số liệu đánh giá mô hình hồi quy.

Hai số liệu duy nhất họ chia sẻ là SBC & AIC. Đầu ra ARIMA không tạo ra số liệu MSE gốc hoặc thống kê r ^ 2. Tôi không chắc chắn liệu ước tính lỗi tiêu chuẩn của mô hình ARIMA có tương đương trực tiếp (hoặc có thể so sánh) với bất cứ điều gì trong các đầu ra hồi quy hay không.

Nếu ai đó có thể chỉ cho tôi đi đúng hướng thì sẽ rất tuyệt, vì tôi thực sự bối rối ở đây. Tôi cảm thấy như mình đang cố so sánh táo với cam.

Tôi đang sử dụng SAS bằng cách tiến hành phân tích này.

Câu trả lời:


6

Nếu chúng tôi loại trừ các mô hình ARIMAX, đó là ARIMA với các biến hồi quy, ARIMA và các mô hình hồi quy là các mô hình với các cách tiếp cận khác nhau. ARIMA cố gắng mô hình hóa biến chỉ với thông tin về các giá trị trong quá khứ của cùng một biến. Mô hình hồi quy mặt khác mô hình biến với các giá trị của các biến khác . Vì các cách tiếp cận này là khác nhau, nên các mô hình không thể so sánh trực tiếp với nhau.

Mặt khác, vì cả hai mô hình đều cố gắng mô hình hóa một biến, cả hai đều tạo ra các giá trị được mô hình hóa của biến này. Vì vậy, câu hỏi so sánh mô hình giống hệt với so sánh các giá trị được mô hình hóa với các giá trị thực. Để biết thêm thông tin làm thế nào để thực hiện chương thứ bảy về các yếu tố của học thống kê của tác giả Hastie et al. là một bài đọc khai sáng.

Cập nhật: Lưu ý rằng tôi không ủng hộ việc chỉ so sánh trong mẫu phù hợp, chỉ là khi các mô hình khác nhau, cách tự nhiên để so sánh các mô hình là so sánh kết quả đầu ra của chúng, không quan tâm đến cách chúng được lấy.


1
"Mặt khác vì cả hai mô hình đều cố gắng mô hình hóa một biến, cả hai đều tạo ra các giá trị được mô hình hóa của biến này. Vì vậy, câu hỏi so sánh mô hình giống hệt với so sánh các giá trị được mô hình hóa với các giá trị thực." <--- Tôi sẽ so sánh MSE của các giá trị được mô hình hóa so với giá trị thực trên phần ngoài mẫu của dữ liệu. Có vẻ như tốt nhất cho tôi để làm điều này.
Brett

1

Bạn có thể sử dụng MSE / AIC / BIC của mô hình arima và so sánh nó với MSE / AIC / BIC của mô hình hồi quy. Chỉ cần đảm bảo rằng số lượng giá trị được trang bị là như nhau nếu không bạn có thể đang mắc lỗi. Ví dụ: nếu mô hình ARIMA có cấu trúc độ trễ là sp + p (sự khác biệt theo mùa của thứ tự sp và cấu trúc tự phát của đơn hàng p, bạn sẽ mất các điểm dữ liệu sp + p đầu tiên và chỉ có giá trị NOB-SP-P thực sự phù hợp. Nếu mô hình hồi quy không có độ trễ thì bạn có điểm NOB phù hợp hoặc ít hơn tùy thuộc vào đặc điểm kỹ thuật của bạn về các giá trị bị trễ cho các đầu vào. Vì vậy, người ta phải nhận ra rằng MSE có thể không nằm trên cùng các giá trị thực tế trong lịch sử. tính toán MSE của mô hình hồi quy trên các giá trị NOB-SP-P cuối cùng để đặt các mô hình ở vị trí ngang nhau. Bạn có thể muốn GOOGLE " Khi kết thúc, người ta thường không bao giờ phù hợp với mô hình hồi quy theo chuỗi thời gian vì chúng có thể là thông tin về độ trễ của các nguyên nhân và độ trễ của biến phụ thuộc chứng minh BƯỚC từ hồi quy sang Mô hình hàm truyền hay còn gọi là Mô hình ARMAX. Nếu bạn không BƯỚC thì một hoặc nhiều Giả định Gauus sẽ bị hủy làm cho các bài kiểm tra F / T của bạn trở nên vô nghĩa và không phù hợp. Hơn nữa, có thể có các vi phạm về hằng số của thuật ngữ lỗi yêu cầu kết hợp dịch chuyển mức / xu hướng thời gian cục bộ và biến xung hoặc biến xung theo mùa để làm cho quá trình lỗi có "giá trị trung bình là 0,0 ở mọi nơi" Khi kết thúc, người ta thường không bao giờ phù hợp với mô hình hồi quy theo chuỗi thời gian vì chúng có thể là thông tin về độ trễ của các nguyên nhân và độ trễ của biến phụ thuộc chứng minh BƯỚC từ hồi quy sang Mô hình hàm truyền hay còn gọi là Mô hình ARMAX. Nếu bạn không BƯỚC thì một hoặc nhiều Giả định Gauus sẽ bị hủy làm cho các bài kiểm tra F / T của bạn trở nên vô nghĩa và không phù hợp. Hơn nữa, có thể có các vi phạm về hằng số của thuật ngữ lỗi yêu cầu kết hợp dịch chuyển mức / xu hướng thời gian cục bộ và biến xung hoặc biến xung theo mùa để làm cho quá trình lỗi có "giá trị trung bình là 0,0 ở mọi nơi" t BƯỚC-UP sau đó một hoặc nhiều Giả định Gauus sẽ bị vô hiệu hóa làm cho các bài kiểm tra F / T của bạn trở nên vô nghĩa và không phù hợp. Hơn nữa, có thể có các vi phạm về hằng số của thuật ngữ lỗi yêu cầu kết hợp dịch chuyển mức / xu hướng thời gian cục bộ và biến xung hoặc biến xung theo mùa để làm cho quá trình lỗi có "giá trị trung bình là 0,0 ở mọi nơi" t BƯỚC-UP sau đó một hoặc nhiều Giả định Gauus sẽ bị vô hiệu hóa làm cho các bài kiểm tra F / T của bạn trở nên vô nghĩa và không phù hợp. Hơn nữa, có thể có các vi phạm về hằng số của thuật ngữ lỗi yêu cầu kết hợp dịch chuyển mức / xu hướng thời gian cục bộ và biến xung hoặc biến xung theo mùa để làm cho quá trình lỗi có "giá trị trung bình là 0,0 ở mọi nơi"


3
Các giá trị AIC được báo cáo cũng có thể không so sánh được vì các hằng số khác nhau bị bỏ qua.
Rob Hyndman

1

Xác nhận chéo có lẽ sẽ tốt ở đây. Để làm điều này, bạn chia bộ dữ liệu của bạn thành 2 phần. Bạn sử dụng phần đầu tiên để phù hợp với cả hai mô hình, và sau đó sử dụng mô hình được trang bị để dự đoán phần thứ hai. Điều này có thể được coi là một xấp xỉ với cách tiếp cận Bayes hoàn toàn để lựa chọn mô hình. Chúng tôi có khả năng của một mô hìnhMTôi

p(d1d2...dN|MTôiTôi)= =p(d1|MTôiTôi)×p(d2|d1MTôiTôi)×p(d3|d1d2MTôiTôi)×..
..×p(dN|d1d2...dN-1MTôiTôi)

Có thể xem heuristur như một chuỗi các dự đoán, và sau đó học hỏi từ những sai lầm. Bạn dự đoán điểm dữ liệu đầu tiên mà không cần đào tạo. Sau đó, bạn dự đoán điểm dữ liệu thứ hai sau khi tìm hiểu về mô hình với điểm đầu tiên. Sau đó, bạn dự đoán điểm dữ liệu thứ 3 sau khi sử dụng hai điểm đầu tiên để tìm hiểu về mô hình, v.v. Bây giờ nếu bạn có một tập dữ liệu đủ lớn, thì các tham số của mô hình sẽ được xác định rõ ngoài một lượng dữ liệu nhất định và chúng tôi sẽ có một số giá trịk:

p(dk+2|d1....dkdk+1MTôiTôi)p(dk+2|d1....dkMTôiTôi)

Mô hình không thể "tìm hiểu" thêm về các tham số và về cơ bản chỉ là dự đoán dựa trên thông số đầu tiên kquan sát. Vì vậy tôi sẽ chọnk (kích thước của nhóm đầu tiên) đủ lớn để bạn có thể điều chỉnh chính xác mô hình, 20-30điểm dữ liệu trên mỗi tham số có lẽ là đủ. Bạn cũng muốn chọnk đủ lớn để sự phụ thuộc trong dk+1...dN mà đang bị bỏ qua không làm cho gần đúng vô dụng.

Sau đó, tôi chỉ đơn giản là đánh giá khả năng của từng dự đoán và lấy tỷ lệ của chúng, được hiểu là tỷ lệ khả năng. Nếu tỷ lệ là về1, sau đó không mô hình nào đặc biệt tốt hơn mô hình kia. Nếu nó ở xa1sau đó, điều này cho thấy một trong những mô hình đang vượt trội so với mô hình kia. tỷ lệ dưới 5 là yếu, 10 mạnh, 20 rất mạnh và 100, quyết định (đối ứng tương ứng cho số lượng nhỏ).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.