Tôi đang tìm kiếm một số kỹ thuật mạnh mẽ để loại bỏ các ngoại lệ và lỗi (bất kể nguyên nhân nào) khỏi dữ liệu chuỗi thời gian tài chính (ví dụ: tickdata).
Dữ liệu chuỗi thời gian tài chính tick-by-tick rất lộn xộn. Nó chứa những khoảng trống lớn (thời gian) khi trao đổi được đóng lại, và thực hiện những bước nhảy lớn khi trao đổi mở lại. Khi trao đổi mở, tất cả các loại yếu tố giới thiệu giao dịch ở mức giá sai (chúng không xảy ra) và / hoặc không đại diện cho thị trường (tăng đột biến do giá thầu nhập sai hoặc hỏi giá chẳng hạn). Bài viết này của tickdata.com (PDF) thực hiện tốt việc phác thảo vấn đề, nhưng đưa ra một vài giải pháp cụ thể.
Hầu hết các giấy tờ tôi có thể tìm thấy trực tuyến đề cập đến vấn đề này hoặc bỏ qua nó (tickdata được giả định đã được lọc) hoặc bao gồm bộ lọc như một phần của một mô hình giao dịch khổng lồ ẩn bất kỳ bước lọc hữu ích nào.
Có ai biết về công việc chuyên sâu hơn trong lĩnh vực này?
Cập nhật: câu hỏi này có vẻ tương tự trên bề mặt nhưng:
- Chuỗi thời gian tài chính là (ít nhất là ở cấp độ đánh dấu) không định kỳ.
- Hiệu ứng mở là một vấn đề lớn vì bạn không thể đơn giản sử dụng dữ liệu của ngày cuối cùng làm khởi tạo mặc dù bạn thực sự muốn (vì nếu không thì bạn chẳng có gì cả). Các sự kiện bên ngoài có thể khiến việc mở ngày mới khác biệt đáng kể cả về mức độ tuyệt đối và mức độ biến động so với ngày trước.
- Tần số dữ liệu đến bất thường. Gần mở và đóng trong ngày, lượng datapoint / giây có thể cao hơn 10 lần so với mức trung bình trong ngày. Các câu hỏi khác liên quan đến dữ liệu được lấy mẫu thường xuyên.
- Các "ngoại lệ" trong dữ liệu tài chính thể hiện một số mẫu cụ thể có thể được phát hiện bằng các kỹ thuật cụ thể không áp dụng trong các lĩnh vực khác và tôi đang tìm kiếm các kỹ thuật cụ thể đó.
- Trong các trường hợp cực đoan hơn (ví dụ như sự cố flash), các ngoại lệ có thể lên tới hơn 75% dữ liệu trong khoảng thời gian dài hơn (> 10 phút). Ngoài ra, tần số (cao) của dữ liệu đến chứa một số thông tin về khía cạnh ngoại lệ của tình huống.