Sắp xếp chuỗi thời gian cho máy học


14

Sau khi đọc một trong những "Lời khuyên nghiên cứu" của RJ Hyndman về xác thực chéo và chuỗi thời gian, tôi trở lại một câu hỏi cũ của tôi mà tôi sẽ cố gắng đưa ra ở đây. Ý tưởng là trong các vấn đề phân loại hoặc hồi quy, thứ tự của dữ liệu không quan trọng, và do đó k xác thực chéo có thể được sử dụng. Mặt khác, trong chuỗi thời gian, việc sắp xếp dữ liệu rõ ràng là rất quan trọng.

{y1,...,yT}t(yt-n+1,...,yt-1,yt;yt+1)

Bây giờ, một khi việc định hình lại này đã được thực hiện, chúng ta có thể xem xét rằng tập hợp kết quả của "vectơ đầu vào-đầu ra" không cần phải được đặt hàng không? Ví dụ, nếu chúng ta sử dụng mạng nơ ron chuyển tiếp nguồn cấp dữ liệu với n đầu vào để "tìm hiểu" các dữ liệu này, chúng ta sẽ đạt được kết quả tương tự cho dù chúng ta hiển thị các vectơ cho mô hình. Và do đó, chúng ta có thể sử dụng xác nhận chéo k-gấp theo cách tiêu chuẩn mà không cần phải điều chỉnh lại mô hình mỗi lần không?

Câu trả lời:


2

Câu trả lời cho câu hỏi này là điều này sẽ hoạt động tốt miễn là thứ tự mô hình của bạn được chỉ định chính xác, khi đó các lỗi từ mô hình của bạn sẽ độc lập.

Bài viết này ở đây cho thấy rằng nếu một mô hình có xác nhận chéo kém sẽ đánh giá thấp mức độ thực sự của nó. Trong tất cả các trường hợp khác, xác thực chéo sẽ thực hiện công việc tốt, đặc biệt, công việc tốt hơn so với đánh giá ngoài mẫu thường được sử dụng trong bối cảnh chuỗi thời gian.


6

Câu hỏi thú vị!

Cách tiếp cận mà bạn mô tả chắc chắn được sử dụng rất rộng rãi bởi những người sử dụng các phương thức ML tiêu chuẩn yêu cầu các vectơ đặc tính có độ dài cố định của các thuộc tính, để phân tích dữ liệu chuỗi thời gian.

Trong bài đăng mà bạn liên kết đến, Hyndman chỉ ra rằng có các mối tương quan giữa các vectơ dữ liệu được định hình lại (mẫu). Điều này có thể có vấn đề, vì k-CV (hoặc các phương pháp đánh giá khác phân chia dữ liệu ngẫu nhiên thành các tập huấn luyện và kiểm tra) giả định rằng tất cả các mẫu đều độc lập. Tuy nhiên, tôi không nghĩ rằng mối quan tâm này có liên quan đến trường hợp của các phương thức ML tiêu chuẩn, xử lý các thuộc tính riêng biệt.

Để giải thích, hãy để tôi đơn giản hóa ký hiệu của bạn bằng cách giả sử n= =3, do đó, một vài vectơ dữ liệu đầu tiên (được gắn nhãn theo thứ tự abc) sẽ là:

Một:(y1,y2,y3;y4)B:(y2,y3,y4;y5)C:(y3,y4,y5;y6)

Rõ ràng, A và B có các điều khoản như y2điểm chung. Nhưng, đối với A, đây là giá trị của thuộc tính thứ hai của nó trong khi đối với B đây là giá trị của thuộc tính đầu tiên.


1
Tôi đồng ý với bạn rằng một số thuật toán ML có thể miễn dịch với vấn đề của các mẫu tương quan cao vì chúng xử lý các thuộc tính hoàn toàn riêng biệt. Nhưng những thuật toán đó cũng không tốt lắm cho công việc theo chuỗi thời gian. Các thuật toán ML hứa hẹn cho một chuỗi thời gian phải có thể nhận thấy rằng thuộc tính # 1 và thuộc tính # 2 thực sự giống nhau, nếu không chúng sẽ bị dự đoán xấu (dự đoán sẽ gần giống nhau khi bạn thay đổi thời gian 1). Những thuật toán đó cũng sẽ bị ảnh hưởng bởi vấn đề được đề cập bởi Hyndman.
tối đa
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.