Tôi đang cố gắng xác định một phương pháp để so sánh một chuỗi thời gian cụ thể với khoảng 10.000+ chuỗi thời gian tham chiếu theo chương trình và liệt kê các chuỗi thời gian tham chiếu có thể được quan tâm.
Phương pháp tôi đang sử dụng là Pearson Correlation . Đối với mỗi chuỗi thời gian tham chiếu, tôi sẽ tính các hệ số tương quan của chúng và sau đó sắp xếp toàn bộ danh sách chuỗi thời gian tham chiếu theo thứ tự giảm dần dựa trên hệ số tương quan. Sau đó, tôi sẽ phân tích trực quan chuỗi thời gian N hàng đầu có hệ số tương quan cao nhất, phù hợp nhất với chuỗi thời gian nhất định.
Vấn đề là tôi đã không nhận được kết quả đáng tin cậy. Thông thường, chuỗi trong phạm vi N hàng đầu không giống với bất kỳ thứ gì như chuỗi thời gian đã cho. Cuối cùng khi tôi đọc bài viết đầy đủ bên dưới, tôi đã hiểu tại sao: Người ta không thể sử dụng tương quan một mình để xác định xem hai chuỗi thời gian có giống nhau không.
Bây giờ đây là một vấn đề với tất cả các thuật toán phù hợp, tính toán một số khoảng cách giữa hai chuỗi thời gian. Chẳng hạn, hai nhóm chuỗi thời gian dưới đây có thể dẫn đến cùng một khoảng cách, nhưng một nhóm rõ ràng là khớp tốt hơn nhóm kia.
A => [1, 2, 3, 4, 5, 6, 7, 8, 9]
B1 => [1, 2, 3, 4, 5, 6, 7, 8, 12]
distance = sqrt(0+0+0+0+0+0+0+0+9) = 3
B2 => [0, 3, 2, 5, 4, 7, 6, 9, 8]
distance = sqrt(1+1+1+1+1+1+1+1+1) = 3
Vì vậy, câu hỏi của tôi là, có một công thức toán học (như tương quan) có thể phù hợp hơn với tôi trong các tình huống này không? Một trong những vấn đề không được đề cập ở đây?
Xin vui lòng yêu cầu làm rõ thêm hoặc cải thiện văn bản câu hỏi nếu cần. Cảm ơn! =)
BIÊN TẬP:
@woodchips, @kstallian:
Hàng trên cùng hiển thị mười thanh cuối cùng của USDCHF-Daily kết thúc vào ngày đã cho. Hàng thứ hai cho 3 kết quả hàng đầu của phương pháp A được sử dụng cho tương quan (giải thích sẽ theo sau). Hàng cuối cùng hiển thị 3 kết quả hàng đầu của phương pháp B. Tôi đã sử dụng giá Cao-Thấp-Đóng để tương quan. Những hình ảnh cuối cùng trong mỗi hàng là những gì tôi cho là "phù hợp", lý do là những bước ngoặt trong loạt phim quan trọng hơn đối với tôi. Một sự trùng hợp ngẫu nhiên là các hàng cuối cùng có mối tương quan tối đa. Nhưng bạn có thể thấy ở hàng cuối cùng rằng hình ảnh thứ hai là một sự tương đồng rất yếu. Tuy nhiên, nó vẫn lén lút vào top 3. Đây là điều khiến tôi băn khoăn. Do hành vi này, tôi buộc phải truy cập trực quan từng tương quan và chấp nhận / loại bỏ nó. Bộ tứ của Anscombe cũng nhấn mạnh rằng mối tương quan cần phải được kiểm tra trực quan. Đó là lý do tại sao tôi muốn tránh xa mối tương quan và khám phá các khái niệm toán học khác để đánh giá tính tương tự của chuỗi.
Phương pháp A nối thêm dữ liệu HLC trong một chuỗi dài và tương quan nó với chuỗi đã cho. Phương pháp B tương quan dữ liệu H với dữ liệu H tham chiếu, L với L, C với C và sau đó nhân cả ba giá trị để tính tương quan thuần . Rõ ràng nó làm giảm mối tương quan tổng thể, nhưng tôi cảm thấy nó có xu hướng tinh chỉnh các mối tương quan kết quả.
Tôi xin lỗi vì đã trả lời quá muộn. Tôi đã cố gắng thu thập dữ liệu và tương quan mã và làm đồ họa để giải thích. Hình ảnh này cho thấy một trong những sự kiện hiếm hoi khi các mối tương quan là điểm đẹp. Tôi sẽ tạo và chia sẻ đồ họa khi các kết quả khớp quá sai lệch mặc dù các giá trị tương quan là khá cao.
@adambowen: bạn đang ở trên. Trên thực tế, tôi đã thực hiện hai thuật toán khác nhau: tương quan và cong vênh thời gian động để truy cập tính tương tự của chuỗi. Đối với DTW tôi phải sử dụng MSE như bạn đã nói. Để tương quan, tôi có thể sử dụng cả MSE (trong trường hợp đó bằng với chi phí của tuyến đường chéo của DTW, mà không có bất kỳ sự cong vênh nào) và công thức tương quan thực tế của Pearson. Các hình ảnh dưới đây là kết quả của việc sử dụng công thức tương quan của Pearson. Tôi sẽ tra cứu các điều khoản bạn đã đề cập trong bài đăng của bạn và báo cáo lại sớm. Trên thực tế, tôi không có hai chuỗi thời gian riêng biệt. Nó chỉ là một chuỗi thời gian dài gần 10.000 điểm. Tôi sử dụng một cửa sổ trượt có chiều rộng N để tự động sắp xếp chuỗi thời gian để xác định vị trí các sự kiện khi chuỗi hoạt động tương tự như ngày nay. Nếu tôi có thể tìm thấy các trận đấu tốt, Tôi có thể dự đoán chuyển động của chuỗi thời gian hiện tại dựa trên cách di chuyển sau mỗi trận đấu được xác định. Cảm ơn sự sáng suốt của bạn.