Tôi có một bộ dữ liệu chuỗi thời gian. Mỗi chuỗi bao gồm cùng một khoảng thời gian, mặc dù ngày thực tế trong mỗi chuỗi thời gian có thể không hoàn toàn chính xác 'xếp hàng'.
Điều đó có nghĩa là, nếu chuỗi Thời gian được đọc thành ma trận 2D, nó sẽ trông giống như thế này:
date T1 T2 T3 .... TN
1/1/01 100 59 42 N/A
2/1/01 120 29 N/A 42.5
3/1/01 110 N/A 12 36.82
4/1/01 N/A 59 40 61.82
5/1/01 05 99 42 23.68
...
31/12/01 100 59 42 N/A
etc
Tôi muốn viết một tập lệnh R sẽ phân tách chuỗi thời gian {T1, T2, ... TN} thành 'gia đình' trong đó một gia đình được định nghĩa là một chuỗi các chuỗi "có xu hướng di chuyển đồng cảm" với nhau.
Đối với phần 'phân cụm', tôi sẽ cần chọn / xác định một loại thước đo khoảng cách. Tôi không chắc chắn làm thế nào để giải quyết vấn đề này, vì tôi đang xử lý chuỗi thời gian và một cặp chuỗi có thể di chuyển trong sự đồng cảm trong một khoảng thời gian, có thể không làm như vậy trong một khoảng thời gian tiếp theo.
Tôi chắc chắn có nhiều người có kinh nghiệm / thông minh hơn tôi ở đây, vì vậy tôi sẽ biết ơn bất kỳ đề xuất, ý tưởng nào về thuật toán / heuristic sử dụng cho thước đo khoảng cách và cách sử dụng nó trong cụm thời gian.
Tôi đoán là KHÔNG có một phương pháp thống kê mạnh mẽ nào được thực hiện để làm điều này, vì vậy tôi sẽ rất thích thú khi thấy cách mọi người tiếp cận / giải quyết vấn đề này - suy nghĩ như một nhà thống kê.