Số liệu khoảng cách thay thế cho hai chuỗi thời gian


8

Tôi có dữ liệu chuỗi thời gian của các ngôi nhà khác nhau. Giả sử đó là dữ liệu tiêu thụ năng lượng. Bây giờ, tôi muốn phân cụm các ngôi nhà theo mô hình tiêu thụ năng lượng tương tự tối đa. Vì vậy, các số liệu khoảng cách khác nhau mà tôi có thể nghĩ ra để đo lường sự giống nhau bao gồm:

  • Khoảng cách Euclide
  • Khoảng cách DTW
  • Khoảng cách Frechet

Với khoảng cách Euclide, tôi tìm thấy một ngoại lệ trong một trong những loạt dẫn đến một sự khác biệt rất lớn. Vì vậy, tôi không muốn sử dụng khoảng cách Euclide trong trường hợp của mình.

Với khoảng cách DTW, tôi thấy rằng nó cố gắng ánh xạ các mẫu / hình dạng tương tự trước tiên trong hai chuỗi đã cho, sau đó tính toán độ tương tự giữa hai chuỗi. Tôi không muốn sử dụng điều này bởi vì tôi không muốn thay đổi mô hình tiêu thụ tại một thời điểm khác để phù hợp với hai chuỗi đầu vào.

Đồ thị vẽ tay hỗ trợ cho các điểm trên là:

Sử dụng khoảng cách Euclide nhập mô tả hình ảnh ở đây

Sử dụng khoảng cách DTW nhập mô tả hình ảnh ở đây

Bây giờ câu hỏi của tôi là:

  1. Những số liệu khoảng cách khác là tốt nhất cho trường hợp của tôi ngoài DTW hoặc Euclidean?
  2. Bạn có thể chỉ cho tôi một số tài liệu tham khảo giải thích khoảng cách Frechet rõ ràng hơn. Tôi tìm thấy một số giấy tờ, nhưng tôi không thể có được khái niệm rõ ràng. Có phải nó chỉ xem xét các điểm tương ứng của hai chuỗi hoặc giống như DTW, nó so sánh một điểm của một chuỗi với nhiều hơn một điểm của chuỗi khác?

CẬP NHẬT: Khi chúng ta so sánh hai loạt, tôi nghĩ rằng chúng ta nhìn từ hai quan điểm:

  1. Chúng tôi chỉ xem xét độ lớn của hai chuỗi (nghĩa là giá trị đỉnh, giá trị thấp nhất, v.v.). Do đó, nếu hai chuỗi nằm trong cùng một giá trị đỉnh, thì chúng ta coi hai chuỗi là giống nhau, nếu không thì chuỗi có thể được coi là khác nhau.
  2. Chúng tôi chỉ xem xét hình dạng của hai loạt (nghĩa là cố gắng so sánh các đỉnh và đáy). Chúng tôi không xem xét mức độ xa hoặc gần của hai loạt về độ lớn. Điều này về cơ bản có nghĩa là mặc dù tôi không phân cụm các ngôi nhà tiêu thụ cùng một lượng điện năng, nhưng tôi sẽ nhận được các ngôi nhà trong một cụm theo mô hình tương tự (tăng / giảm) tiêu thụ điện năng.

Tôi muốn một số liệu tương tự liên quan đến quan điểm số 2. Tôi đã tóm tắt cả hai quan điểm trong hình dưới đây. nhập mô tả hình ảnh ở đây

Câu trả lời:


1

Trả lời câu hỏi 1:

Bạn chỉ trích DTW được đáp ứng bằng cách đưa ra các ràng buộc toàn cầu cho đường cong vênh. Điều này hạn chế một cách hiệu quả cả nỗ lực tính toán (vì các đường cong không được phép không phải tính toán) và ngăn ngừa cong vênh bệnh lý.

Do đó, câu trả lời là: DTW với các ràng buộc toàn cầu

Có một số biến thể của các ràng buộc như dải Sakoe-Chiba và Hình bình hành Itakura như bạn có thể thấy trong hình ảnh sau đây. Hình ảnh bắt nguồn từ một bài thuyết trình, có sẵn trực tuyến trong một bài thuyết trình được thực hiện bởi Chotirat Ratanamahatana và Eamonn Keogh.

nhập mô tả ở đây

Một thước đo khoảng cách chuỗi thời gian có thể có liên quan khác là:

LCSS - Hậu quả chung dài nhất - ban đầu được phát triển để phân tích độ tương tự của chuỗi nhưng cũng có thể được sử dụng cho chuỗi thời gian bằng số.


0

Đối với hầu hết người dùng, "ngoại lệ" này là một sự khác biệt đáng chú ý và sẽ mang lại sự khác biệt có thể đo lường được.

Nhưng so với một loạt hoàn toàn khác, nó vẫn chỉ nên đóng góp một chút, trừ khi bạn không xử lý tốt dữ liệu của mình.

Chúng tôi không thể cung cấp cho bạn các đề xuất tốt hơn, vì không thể nói những gì bạn muốn. Chúng tôi không có dữ liệu của bạn và chúng tôi không biết vấn đề của bạn. Để tìm ra cách giải quyết vấn đề này, bạn cần chính thức hóa các yêu cầu của mình , tức là những gì nên giống nhau, những gì nên khác biệt và những gì nên giống nhau hơn những gì khác. Chỉ phàn nàn rằng bạn không "thích" kết quả của các biện pháp là không đủ, bạn cần phải chính xác hơn nhiều.


Tôi cập nhật câu hỏi của tôi với một chút chi tiết rõ ràng. Xin vui lòng cho tôi biết Nếu câu hỏi không đủ rõ ràng. Tôi đã cố gắng để được chính xác. Ngoài ra, bạn có thể vui lòng cho tôi biết về tiền xử lý dữ liệu. Ý bạn là làm mịn hoặc phù hợp với đường cong?
Haroon Rashid

Để có được 2, bạn có thể cần xử lý trước dữ liệu của mình, ví dụ: bằng cách định tâm và tiêu chuẩn hóa, trước khi sử dụng, ví dụ như Euclide.
Có QUIT - Anony-Mousse

Cảm ơn. và những gì về số liệu khoảng cách ngoài Euclid. Tôi có thể thử các số liệu khác nhau, nhưng tôi không biết làm cách nào để quyết định số liệu xtốt hơny
Haroon Rashid

1
Chắc chắn bạn có thể. Hoặc bằng cách xem xét lý thuyết của họ và kiểm tra xem nó có phù hợp với lý thuyết của bạn trên dữ liệu của bạn không; hoặc nếu bạn đã dán nhãn dữ liệu bằng đánh giá thực nghiệm. Ví dụ: nếu bạn cho rằng chuỗi thời gian của bạn được căn chỉnh hoàn hảo, thì bạn không cần cong vênh thời gian! Khoảng cách Frechet dành cho loạt đa biến (nghĩ về mô hình chó và chủ, có phù hợp với vấn đề của bạn không?)
Có QUIT - Anony-Mousse
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.