Tôi có kinh nghiệm trước đây với xác thực chéo K-gập 'bình thường' để điều chỉnh mô hình và tôi hơi bối rối bởi ứng dụng trong các mô hình chuỗi thời gian.
Theo hiểu biết của tôi, đối với các mô hình chuỗi thời gian, hệ quả của việc xác thực chéo là thủ tục 'khởi nguồn tiến' được mô tả bởi Hyndman . Điều này rất có ý nghĩa với tôi và mã dưới đây cho thấy việc sử dụng tsCV
hàm trong R, từ blog của Hydman , để cho thấy các lỗi khác nhau như thế nào so với CV so với toàn bộ dữ liệu trong một lần.
library(fpp)
e <- tsCV(dj, rwf, drift=TRUE, h=1)
sqrt(mean(e^2, na.rm=TRUE))
## [1] 22.68249
sqrt(mean(residuals(rwf(dj, drift=TRUE))^2, na.rm=TRUE))
## [1] 22.49681
Bây giờ, trong liên kết trên, nó đề cập rằng tham số trôi được ước tính lại ở mỗi nguồn gốc dự báo mới. Trong CV 'bình thường' tôi sẽ có một lưới các tham số mà tôi sẽ đánh giá theo từng nếp gấp để tôi có thể lấy trung bình để xác định các tham số tốt nhất để sử dụng. Sau đó, tôi sẽ sử dụng các tham số 'tốt nhất' đó để phù hợp với tập huấn luyện đầy đủ và sử dụng đó làm mô hình cuối cùng để đánh giá trên tập kiểm tra đã tổ chức trước đó của tôi. Lưu ý, đây là xác thực chéo lồng nhau vì vậy tôi không đào tạo về bộ kiểm tra của mình tại bất kỳ thời điểm nào.
Đây rõ ràng không phải là trường hợp với các 'lăn về phía trước nguồn gốc' thủ tục, nơi các thông số được tối ưu hóa cho mỗi lần (ít nhất là trong phương pháp R như bats
, tbats
, auto.arima
, vv). Tôi có nhầm lẫn khi nghĩ về phương pháp này về mặt điều chỉnh tham số mô hình hay tôi sẽ chọn các tham số mô hình chuỗi thời gian để đặt cho mô hình cuối cùng sẽ được sử dụng như thế nào? Hoặc điều chỉnh tham số không xem xét vấn đề với các mô hình chuỗi thời gian trong đó tối ưu hóa dường như là một phần của sự phù hợp mô hình và kết quả của CV là chỉ nói mỗi mô hình thực hiện tốt như thế nào? Và rằng mô hình cuối cùng được xây dựng với phần lớn dữ liệu ở cuối là mô hình tôi sẽ sử dụng?
Tôi nhận ra điều này có thể được nhắc lại trong một câu hỏi thậm chí đơn giản hơn. Sau khi xác thực chéo ('nguồn gốc chuyển tiếp'), tôi chỉ sử dụng mô hình cuối cùng được chế tạo (với superset lớn nhất làm mô hình được trang bị cuối cùng? Hay đề xuất gì?