Một số câu hỏi về mô hình thời gian tài chính thống kê từ người học máy


9

Để giải thích lý do tại sao tôi có những câu hỏi ngu ngốc mà bạn sẽ tìm thấy bên dưới, tôi phải nói rằng tôi là một người học máy nhiều hơn. Trong khi tôi làm việc về các vấn đề trong tin sinh học, mọi thứ đều ổn. Khi tôi nghe những từ như "hồi quy" hoặc "kurtosis và xiên", trong trường hợp đầu tiên tôi chỉ mỉm cười, trong trường hợp thứ hai tôi chỉ làm một vài động tác vụng về với đôi vai cố gắng nói điều gì đó như: "vâng, tôi đã nghe về nó, và thậm chí biết cách tính toán, nhưng tại sao trên trái đất mọi người sẽ cần nó? ".

Tình hình đã thay đổi đáng kể khi năm trước, chỉ để cho vui, tôi đã cố gắng áp dụng kiến ​​thức học máy của mình vào một số chuỗi thời gian tài chính.

Tôi bắt đầu với ý tưởng tạo ra một Mạng Bayes từ các tín hiệu được cung cấp bởi các "chỉ số" "phân tích" kỹ thuật. Ý tưởng thất bại. Ngoài ra, có phần hài lòng khi tìm thấy ít nhất hai chủ đề có ý tưởng tương tự trên trang web này (sử dụng mạng thần kinh thay vì bayesian).

Tiếp theo, sau rất nhiều nỗ lực, tôi đã có thể xây dựng một hỗn hợp kNN và hồi quy tượng trưng mà tôi đã đào tạo trên dữ liệu 1 giờ từ 2000 đến 2006 và thử nghiệm trên dữ liệu từ năm 2007. Mô hình này thực tế đã mang lại lợi nhuận cao. Nhưng sau đó khi tôi áp dụng nó vào dữ liệu mới nhất, tôi nhận ra rằng độ chính xác của nó giảm đáng kể vì kinh tế và nó không hoạt động nữa vì có gì đó đã thay đổi trên thị trường và tôi cần thêm dữ liệu mới, tôi chỉ có thể nhận được trong 2-5 năm

Chà, rất nhiều thứ đã được thử sau đó và nếu toàn bộ điều này bắt đầu là "chỉ để cho vui", thì nó không còn vui nữa. Cho đến khi tôi tìm thấy các bài giảng trực tuyến của Ruey S. Tsay về ARIMA, GARCH, TAR và tất cả những thứ hoàn toàn mới khác với tôi.

Về cơ bản tôi đã tìm thấy một thế giới hoàn toàn mới và tôi thực sự thích nó. Ngay bây giờ tôi đã có thể điều chỉnh mô hình ARIMA đầu tiên của mình và sau đó điều chỉnh nó để giảm lỗi rms hai lần bằng cách xem ACF, PACF, chơi theo mùa, v.v.

Chà, niềm vui đã trở lại, tôi đã có rất nhiều và tôi mong đợi có nhiều hơn nữa. Nhưng tôi đã có một số câu hỏi và tìm thấy trang web tuyệt vời này. Đọc hầu hết tất cả các chủ đề về ARIMA và các kỹ thuật liên quan khác ở đây, cùng với nhiều chủ đề chung khác liên quan đến các phương pháp tương tự. Để chắc chắn sẽ được đọc nhiều hơn. Tôi vẫn đang suy nghĩ trong một khung suy nghĩ về phương pháp học máy, dẫn đến rất nhiều câu hỏi ngu ngốc, trong đó hầu hết tôi tìm thấy câu trả lời trên trang web này.

Vì vậy, sau phần giới thiệu dài này, đây là những câu hỏi ngu ngốc còn lại của tôi:

  1. Trong khi phương pháp học máy quan tâm nhiều hơn đến việc tìm "mẫu" trong dữ liệu, tôi thấy nó mâu thuẫn với các mô hình thống kê cho thời gian tài chính sử dụng rộng rãi lý thuyết đi bộ ngẫu nhiên (điều này làm cho sự tồn tại của các mẫu ít nhất là nghi vấn). Tôi nhận ra rằng mô tả rất ngây thơ và không chính xác của nó, nhưng điều tôi đang cố gắng nói, đó là hầu hết các kỹ thuật học máy đều mâu thuẫn về mặt khái niệm với cách tiếp cận thống kê cho vấn đề. Tôi không nói rằng một số cách tiếp cận là tốt hơn, tôi chỉ nói rằng họ có mâu thuẫn. Điều đó có đúng không và sự mâu thuẫn này lớn đến mức nào?

  2. Tôi thực sự thích mô tả và ý tưởng về mô hình TAR mà đối với tôi trông giống như cuộc hôn nhân của máy học với các số liệu thống kê. Đây là mô hình tôi muốn thử tiếp theo sau khi tôi thêm GARCH vào ARIMA của mình. Nhưng tôi có một số câu hỏi về nó:

    • TAR chắc chắn sử dụng cả phương pháp thống kê và học máy. Vì vậy, hãy ghi nhớ câu hỏi đầu tiên của tôi, không có lỗi khi triyng tìm mẫu cho tập hợp các mô hình, về cơ bản được xây dựng trên lý thuyết loại trừ các mẫu? Hay đó chỉ là một ý tưởng về cách kết hợp hai mô hình nghiên cứu các khía cạnh khác nhau của cùng một vấn đề, thành một mô hình thậm chí còn mạnh mẽ hơn?

    • Khi bạn thực hiện tìm kiếm theo từ khóa "ARIMA" trên trang web này, bạn sẽ nhấn 15 trang chủ đề, trong khi đối với TAR chỉ có một. Ngoài ra tại sao mọi người dừng lại chỉ áp dụng AR? Tại sao không mở rộng ý tưởng này cho các mô hình phức tạp hơn (như ARIMA)? Có phải vì TAR đã không cải thiện được mong đợi so với AR?

  3. Tôi biết rằng các phương pháp MCMC và các công cụ học máy khác hiện đang được trộn lẫn với các mô hình thống kê. Cá nhân tôi cũng là một fan hâm mộ lớn của Mô hình Markov ẩn và Trường ngẫu nhiên có điều kiện. Bạn có biết về bất kỳ hỗn hợp của bất kỳ phương pháp nào trong số các phương pháp này với các mô hình thống kê không?


1
Lưu ý rằng ARIMA thường thiên về đại diện hơn là một mô hình khác với AR. Thông thường, bạn có thể sắp xếp lại mô hình ARIMA thành mô hình AR. Tôi nghĩ rằng bạn gặp phải các vấn đề ước tính nếu bạn không thể (Tôi khá chắc chắn rằng các mô hình chuỗi thời gian không thể đảo ngược là khó phù hợp). Ngoài ra, phần lớn sự khác biệt của bạn là nhiều hơn về thuật ngữ hơn là mô hình. Trường ngẫu nhiên có điều kiện về cơ bản là một mô hình hỗn hợp. Các mô hình Markov ẩn rất giống với Bộ lọc Kalman, v.v.
xác suất

@probabilityislogic cảm ơn bạn đã bình luận. Vâng, tôi nhận ra có rất nhiều điểm chung. Thật sự rất hấp dẫn đối với tôi khi chỉ nói rằng toàn bộ phương pháp thống kê cũng giống như học máy, chỉ đơn giản giống như một số phương pháp mới của nó. Tôi chỉ đơn giản là sợ rằng tôi sẽ bỏ lỡ điều gì đó quan trọng trong trường hợp như vậy, vì vậy tôi đang tập trung vào sự khác biệt, để nhận ra nhiều hơn về các cách đúng và sai khi áp dụng các mô hình này. Thật dễ dàng để tôi thấy sự tương đồng, đó là sự khác biệt mà tôi sợ bỏ lỡ.
GrayR

Câu trả lời:


1

Về câu hỏi 1, chuỗi thời gian không giải quyết chủ yếu với các bước đi ngẫu nhiên. Chuỗi thời gian đứng yên có cấu trúc tương quan được mô hình hóa trong các mô hình ARMA ví dụ. Phân tích chuỗi thời gian cũng xem xét các hiệu ứng và xu hướng định kỳ (chúng tôi gọi đó là các chuỗi thời gian không cố định). Tìm kiếm các mẫu trong dữ liệu không tương thích với thống kê miễn là có sự thừa nhận rằng có một mẫu + một thành phần ngẫu nhiên và thành phần ngẫu nhiên phải được xem xét trong phân tích. Về câu hỏi 2 Tôi không thấy lý do tại sao bạn gọi TAR là sự kết hợp giữa học máy và thống kê. Tôi thấy nó chỉ là một mô hình chuỗi thời gian phức tạp hơn bao gồm tham số ngưỡng một mô hình 2 AR. Tôi đoán tôi cũng không thấy sự khác biệt lớn giữa học máy và thống kê. Tôi xem học máy như là một phần của nhận dạng / phân loại mẫu thống kê nằm trong lĩnh vực phân tích đa biến. Dường như với tôi rằng TAR có thể dễ dàng được mở rộng để đặt ngưỡng cho mô hình ARMA. Tôi không biết nếu nó đã được thử hay tại sao nó không được phát triển. Có lẽ ai đó làm việc với các mô hình chuỗi thời gian này có thể trả lời câu hỏi đó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.