Tôi đang xem xét hai chiến lược để thực hiện "tăng dữ liệu" trong dự báo chuỗi thời gian.
Đầu tiên, một chút nền tảng. Công cụ dự đoán để dự báo bước tiếp theo của chuỗi thời gian là một chức năng thường phụ thuộc vào hai điều, trạng thái quá khứ của chuỗi thời gian, nhưng cũng là trạng thái trong quá khứ của người dự đoán:
Nếu chúng tôi muốn điều chỉnh / huấn luyện hệ thống của mình để có được tốt , thì chúng tôi sẽ cần đủ dữ liệu. Đôi khi dữ liệu có sẵn sẽ không đủ, vì vậy chúng tôi xem xét thực hiện tăng dữ liệu.
Cách tiếp cận đầu tiên
Giả sử chúng ta có chuỗi thời gian , với . Và giả sử rằng chúng ta có đáp ứng điều kiện sau: .
Chúng ta có thể xây dựng chuỗi thời gian mới , trong đó là sự hiện thực hóa phân phối .
Sau đó, thay vì giảm thiểu chức năng mất chỉ hơn , chúng tôi cũng làm điều đó qua . Vì vậy, nếu quá trình tối ưu hóa thực hiện bước, chúng ta phải "khởi tạo" bộ dự đoán lần và chúng ta sẽ tính khoảng trạng thái bên trong của bộ dự đoán.
Cách tiếp cận thứ hai
Chúng tôi tính toán như trước đây, nhưng chúng tôi không cập nhật trạng thái bên trong của người dự đoán bằng cách sử dụng , nhưng . Chúng tôi chỉ sử dụng hai chuỗi cùng nhau tại thời điểm tính toán hàm mất, vì vậy chúng tôi sẽ tính toán các trạng thái bên trong của bộ dự đoán xấp xỉ .
Tất nhiên, có ít công việc tính toán ở đây (mặc dù thuật toán hơi xấu hơn một chút), nhưng bây giờ nó không còn quan trọng nữa.
Sự nghi ngờ
Vấn đề là: từ quan điểm thống kê, đâu là lựa chọn "tốt nhất"? Và tại sao?
Trực giác của tôi nói với tôi rằng cái đầu tiên tốt hơn, bởi vì nó giúp "bình thường hóa" các trọng số liên quan đến trạng thái bên trong, trong khi cái thứ hai chỉ giúp bình thường hóa các trọng số liên quan đến chuỗi thời gian quan sát được.
Thêm:
- Bất kỳ ý tưởng khác để làm tăng dữ liệu cho dự báo chuỗi thời gian?
- Làm thế nào để cân trọng lượng dữ liệu tổng hợp trong tập huấn luyện?