Phân tích chuỗi thời gian so với học máy?


10

Chỉ là một câu hỏi chung chung. Nếu bạn có dữ liệu chuỗi thời gian, khi nào thì tốt hơn là sử dụng các kỹ thuật chuỗi thời gian (hay còn gọi là ARCH, GARCH, v.v.) trên các kỹ thuật học máy / thống kê (KNN, hồi quy)? Nếu có một câu hỏi tương tự tồn tại trên crossvalidated, xin vui lòng chỉ cho tôi về phía nó - nhìn và không thể tìm thấy một câu hỏi.


Câu trả lời:


9

Các phương pháp học máy thông thường cho rằng dữ liệu của bạn độc lập và được phân phối giống hệt nhau, điều này không đúng với dữ liệu chuỗi thời gian. Do đó, chúng ở thế bất lợi so với các kỹ thuật chuỗi thời gian, về độ chính xác. Để biết ví dụ về điều này, hãy xem các câu hỏi trước Sắp xếp chuỗi thời gian cho học máyRừng ngẫu nhiên là quá mức .


Cám ơn phản hồi của bạn. Theo quan điểm của bạn, có vẻ như học máy quan tâm nhiều hơn đến việc tìm kiếm các mối quan hệ trong dữ liệu, trong khi phân tích chuỗi thời gian quan tâm nhiều hơn đến việc xác định chính xác nguyên nhân của dữ liệu - tức là các yếu tố ngẫu nhiên ảnh hưởng đến nó như thế nào. Bạn có đồng ý với điều này?
Nagy

4
Không, tôi sẽ không đồng ý với tóm tắt đó.
Tom Minka

4

Gần đây, Francis Diebold đã đăng "ML và Metrics VI: Sự khác biệt chính giữa ML và TS Kinh tế lượng" trên blog của mình. Tôi đang cung cấp một phiên bản rút gọn của nó, vì vậy tất cả tín dụng thuộc về anh ta. (Nhấn mạnh in đậm là của tôi.)

[S] học máy tatistic (ML) và kinh tế lượng chuỗi thời gian (TS) có rất nhiều điểm chung. Nhưng cũng có một sự khác biệt thú vị: sự nhấn mạnh của ML vào mô hình phi tuyến tính linh hoạt của phi tuyến có nghĩa là có điều kiện không đóng vai trò lớn trong TS. <...>

[T] đây là rất ít bằng chứng về tính phi tuyến trung bình có điều kiện quan trọng trong động lực học hiệp phương sai (không theo xu hướng, không theo mùa) của hầu hết các chuỗi thời gian kinh tế. <...> Thật vậy, tôi chỉ có thể nghĩ về một loại phi tuyến có nghĩa là có điều kiện đã xuất hiện nhiều lần quan trọng đối với (ít nhất là một số) chuỗi thời gian kinh tế: Động lực học chuyển đổi Markov theo phong cách Hamilton.

[Tất nhiên có một con voi phi tuyến tính trong phòng: Động lực học kiểu GARCH kiểu Engle. Chúng cực kỳ quan trọng trong kinh tế lượng tài chính, và đôi khi cả về kinh tế lượng vĩ mô, nhưng chúng là về phương sai có điều kiện, không phải là phương tiện có điều kiện.]

Vì vậy, về cơ bản chỉ có hai mô hình phi tuyến tính quan trọng trong TS, và chỉ một trong số chúng nói về động lực học có điều kiện. Và điều quan trọng nhất là cả hai đều rất chặt chẽ, phù hợp với các tính năng chuyên biệt của dữ liệu tài chính và kinh tế.

Do đó, kết luận là:

ML nhấn mạnh các hàm trung bình có điều kiện phi tuyến tính gần đúng theo kiểu không tham số rất linh hoạt. Điều đó hóa ra đôi khi không cần thiết ở TS: Không có gì phải lo lắng về tính phi tuyến tính có điều kiện, và đôi khi, nó thường có tính chất chuyên môn cao xấp xỉ tốt nhất theo kiểu chuyên môn hóa cao (chặt chẽ) .

Tôi khuyên bạn nên đọc toàn bộ bài viết gốc ở đây .


+1. Tôi rất đồng ý với câu trả lời này. Các phương pháp ML điển hình được đặc trưng bởi mô hình phi tham số và có các giả định rất thoải mái trong khi các mô hình ARMA là "tham số chặt chẽ".
Digio

2

Như @Tom Minka đã chỉ ra hầu hết các kỹ thuật ML giả định đầu vào iid. Có một vài giải pháp mặc dù:

  1. Người ta có thể sử dụng tất cả các mẫu chuỗi thời gian trong quá khứ trong hệ thống 'Bộ nhớ' làm một vectơ đặc trưng, ​​tức là: x = [x (t-1), x (t-2), ... x (tM)]. Tuy nhiên, điều này có 2 vấn đề: 1) tùy thuộc vào việc tạo thùng của bạn, bạn có thể có một vectơ đặc trưng rất lớn 2- một số phương pháp yêu cầu các tính năng trong vectơ tính năng phải độc lập, không phải là trường hợp ở đây.

  2. Tồn tại nhiều kỹ thuật ML được thiết kế riêng cho dữ liệu chuỗi thời gian như vậy, ví dụ Mô hình Markov ẩn, đã được sử dụng rất thành công để phát hiện động kinh, xử lý giọng nói, v.v ...

  3. Cuối cùng, một cách tiếp cận tôi đã thực hiện là sử dụng các kỹ thuật 'trích xuất tính năng' để chuyển đổi một vấn đề hồi quy động (có yếu tố thời gian) thành một tĩnh. Ví dụ: cách tiếp cận Chế độ động lực học chính (PDM) ánh xạ vectơ tính năng quá khứ đầu vào ([x (t-1), x (t-2), ... x (tM)]) thành một tĩnh ([v ( 1), v (2), .. v (L)]) bằng cách kết hợp quá khứ với bộ lọc tuyến tính dành riêng cho hệ thống (PDMs), xem Marmarelis, cuốn sách 2004 hoặc Marmarelis, Vasilis Z. "Phương pháp mô hình hóa cho các hệ thống sinh lý phi tuyến . " Biên niên sử của kỹ thuật y sinh 25.2 (1997): 239-251 ...

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.