Thống kê tương tự của chuỗi thời gian


15

Giả sử người ta có một chuỗi thời gian mà người ta có thể thực hiện các phép đo khác nhau như thời gian, tối đa, tối thiểu, trung bình, v.v. và sau đó sử dụng chúng để tạo ra một sóng hình sin có cùng thuộc tính, có cách tiếp cận thống kê nào người ta có thể sử dụng có thể định lượng Làm thế nào chặt chẽ dữ liệu thực tế phù hợp với mô hình giả định? Số lượng điểm dữ liệu trong chuỗi sẽ nằm trong khoảng từ 10 đến 50 điểm.

Một suy nghĩ đầu tiên rất đơn giản của tôi là gán một giá trị cho chuyển động có hướng của sóng hình sin, tức là +1 +1 +1 +1 -1 -1 -1 -1 -1 -1 -1 +1 +1 +1 +1, làm tương tự với dữ liệu thực tế và sau đó bằng cách nào đó định lượng mức độ tương tự của chuyển động định hướng.

Chỉnh sửa: Đã suy nghĩ nhiều hơn về những gì tôi thực sự muốn làm với dữ liệu của mình và trả lời cho câu hỏi ban đầu của tôi, điều tôi cần là một thuật toán ra quyết định để lựa chọn giữa các giả định cạnh tranh: cụ thể là dữ liệu của tôi về cơ bản là tuyến tính (hoặc xu hướng) với tiếng ồn có thể có các yếu tố tuần hoàn; dữ liệu của tôi về cơ bản là theo chu kỳ mà không có xu hướng định hướng nào để nói đến; dữ liệu về cơ bản chỉ là tiếng ồn; hoặc nó đang chuyển đổi giữa bất kỳ trạng thái nào.

Suy nghĩ của tôi bây giờ là có thể kết hợp một số dạng phân tích Bayes và chỉ số Euclide / LMS. Các bước trong phương pháp này sẽ là

Tạo sóng hình sin giả định từ các phép đo dữ liệu

Khớp một đường thẳng LMS với dữ liệu

Lấy số liệu Euclide hoặc LMS cho các lần khởi hành từ dữ liệu gốc cho từng mục ở trên

Tạo một Bayes trước cho mỗi dựa trên số liệu này, tức là 60% số lần khởi hành kết hợp gắn với một, 40% cho số khác, do đó ủng hộ 40%

trượt một cửa sổ một điểm dữ liệu dọc theo dữ liệu và lặp lại ở trên để có được số liệu% mới cho tập dữ liệu thay đổi một chút này - đây là bằng chứng mới - thực hiện phân tích Bayes để tạo ra một hậu tố và thay đổi xác suất có lợi cho từng giả định

lặp lại dọc theo toàn bộ tập dữ liệu (hơn 3000 điểm dữ liệu) với cửa sổ trượt này (chiều dài cửa sổ 10-50 điểm dữ liệu). Hy vọng / mục đích là xác định giả định chiếm ưu thế / ưa thích tại bất kỳ điểm nào trong tập dữ liệu và cách điều này thay đổi theo thời gian

Bất kỳ ý kiến ​​về phương pháp tiềm năng này sẽ được hoan nghênh, đặc biệt là về cách tôi thực sự có thể thực hiện phần phân tích Bayes.

Câu trả lời:


7

Khoảng cách Euclide là một số liệu phổ biến trong học máy. Các slide sau cung cấp một cái nhìn tổng quan về khu vực này cùng với các tài liệu tham khảo:

Đồng thời xem các tài liệu tham khảo trên trang điểm chuẩn của Keogh để phân loại chuỗi thời gian:


5

Nếu bạn có một mô hình cụ thể mà bạn muốn so sánh với: Tôi sẽ đề xuất Least-squares làm số liệu để giảm thiểu và chấm điểm các giá trị tham số có thể so với một tập dữ liệu cụ thể. Tất cả những gì bạn cần làm là cắm vào các ước tính tham số của bạn, sử dụng các ước tính đó để tạo các giá trị dự đoán và tính độ lệch bình phương trung bình so với các giá trị thực.

Tuy nhiên, Bạn có thể cân nhắc chuyển câu hỏi của mình một chút: "Mô hình nào phù hợp nhất với dữ liệu của tôi?" Trong trường hợp đó tôi sẽ đề nghị đưa ra một giả định về một thuật ngữ lỗi được phân phối thông thường ~ một cái gì đó mà người ta có thể tranh luận gần giống với giả định bình phương nhỏ nhất. Sau đó, tùy thuộc vào lựa chọn mô hình của bạn , bạn có thể đưa ra giả định về cách bạn nghĩ các tham số mô hình khác được phân phối (gán Bayesian trước) và sử dụng một cái gì đó như gói MCMC từ R để lấy mẫu từ phân phối các tham số. Sau đó, bạn có thể xem xét các phương tiện & phương sai sau để có ý tưởng về mô hình nào phù hợp nhất.


Nếu tôi có hai mô hình có thể phù hợp với dữ liệu của mình, sóng hình sin như được mô tả trong câu hỏi ban đầu của tôi và phù hợp với đường thẳng LMS, tôi có thể chỉ cần so sánh độ lệch bình phương trung bình so với giá trị dữ liệu thực của sóng hình sin với phần dư của Dòng phù hợp LMS và sau đó chọn mô hình có giá trị tổng thể thấp hơn với lý do mô hình này thể hiện sự phù hợp chính xác hơn với dữ liệu? Nếu vậy, có lẽ cũng hợp lệ khi chia dữ liệu thành hai nửa và làm tương tự với từng nửa một cách riêng biệt, sử dụng cùng một sóng hình sin / LMS để xem mỗi mô hình có thể được cải thiện / trở nên tồi tệ hơn theo thời gian như thế nào?
babelproofreader

Tôi không chắc. Đề nghị của tôi là sử dụng số liệu Least Squares, nhưng tôi không nói là chạy hồi quy tuyến tính. Bạn có thể kiểm tra hồi quy định kỳ .
M. Tibbits

Đối với câu hỏi khác của bạn, bạn có thể cắt dữ liệu xuống một nửa không, tôi sẽ rất thận trọng khi làm như vậy - bởi vì điều đó sẽ tăng gấp đôi tần số tối thiểu bạn có thể xem xét. Tôi nghĩ rằng cuối cùng bạn cần phải xem xét các hệ số Fourier (lấy FFT hoặc DCT và hồi quy trên chúng?!? - Không chắc chắn ). Hoặc có lẽ hồi quy định kỳ như đã đề cập ở trên.
M. Tibbits

3

"Suy nghĩ đầu tiên đơn giản" của bạn về đại diện định tính chỉ là chuyển động định hướng tương tự như thuật toán SAX của Keogh để so sánh chuỗi thời gian. Tôi khuyên bạn nên xem qua: Eamonn Keogh & Jessica Lin: SAX .

Từ bản chỉnh sửa của bạn, có vẻ như bây giờ bạn đang nghĩ về việc giải quyết vấn đề theo cách khác, nhưng bạn có thể thấy rằng SAX cung cấp một phần của câu đố.


0

Mặc dù tôi đến bữa tiệc muộn một chút, nếu bạn đang suy nghĩ về bất cứ điều gì hình sin, biến đổi wavelet là một công cụ tốt để có trong túi của bạn. Về lý thuyết, bạn có thể sử dụng các phép biến đổi wavelet để phân tách một chuỗi thành nhiều "phần" khác nhau (ví dụ: các sóng có hình dạng / tần số khác nhau, các thành phần không phải là sóng như xu hướng, v.v.). Một dạng biến đổi sóng cụ thể được sử dụng một tấn là biến đổi Fourier, nhưng có rất nhiều công việc trong lĩnh vực này. Tôi rất muốn có thể đề xuất một gói hiện tại, nhưng tôi đã không thực hiện công việc phân tích tín hiệu trong một thời gian dài. Tuy nhiên, tôi nhớ lại một số gói Matlab hỗ trợ chức năng trên tĩnh mạch này.

Một hướng đi khác nếu bạn chỉ cố gắng tìm xu hướng trong dữ liệu tuần hoàn là một cái gì đó giống như thử nghiệm Xu hướng Mann-Kendall. Nó được sử dụng rất nhiều cho những việc như phát hiện sự thay đổi thời tiết hoặc chất lượng nước, có ảnh hưởng mạnh mẽ theo mùa. Nó không có chuông và còi của một số phương pháp tiếp cận tiên tiến hơn, nhưng vì đây là một thử nghiệm thống kê kỳ cựu nên khá dễ để giải thích và báo cáo.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.