Chuỗi thời gian và phát hiện bất thường


15

Tôi muốn thiết lập một thuật toán để phát hiện sự bất thường trong chuỗi thời gian và tôi dự định sử dụng phân cụm cho điều đó.

  • Tại sao tôi nên sử dụng ma trận khoảng cách để phân cụm chứ không phải dữ liệu chuỗi thời gian thô?,

  • Để phát hiện sự bất thường, tôi sẽ sử dụng phân cụm dựa trên mật độ, một thuật toán như DBscan, vậy nó có hoạt động trong trường hợp này không? Có một phiên bản trực tuyến để truyền dữ liệu?

  • Tôi muốn phát hiện sự bất thường trước khi nó xảy ra, vì vậy, liệu sử dụng thuật toán phát hiện xu hướng (ARIMA) có phải là một lựa chọn tốt không?


Đó là DBSCAN được viết chính xác. Nó là một từ viết tắt. Tôi không chắc chắn những gì bạn đang cố gắng làm. Phát hiện sự bất thường trong một chuỗi thời gian, hoặc chuỗi thời gian dị thường tổng thể.
Anony-Mousse -Reinstate Monica

Có DBSCAN, chính xác! Những gì tôi đang cố gắng làm, là một sự bất thường phát hiện trực tuyến trong bộ dữ liệu chuỗi thời gian! vì thế! có yêu cầu gì không cảm ơn
napsterockoeur

Trực tuyến như trong thời gian phát triển hoặc như trong loạt bổ sung được thêm vào? Một lần nữa, những điều này rất khác nhau, và bạn cần phải rất rõ ràng về ý nghĩa của bạn.
Anony-Mousse -Reinstate Monica

Ý tôi là trực tuyến (luồng), một chuỗi thời gian phát triển đến từ một cảm biến .. mỗi một giờ một bộ dữ liệu (vectơ) được nhận ..
napsterockoeur

Câu trả lời:


12

Về câu hỏi đầu tiên của bạn, tôi khuyên bạn nên đọc bài viết nổi tiếng này (Phân cụm các chuỗi kết quả theo chuỗi thời gian là vô nghĩa) trước khi thực hiện phân cụm trên một chuỗi thời gian. Nó được viết rõ ràng và minh họa nhiều cạm bẫy mà bạn muốn tránh.


6

Phát hiện bất thường hoặc "Phát hiện can thiệp" đã được GCTiao và những người khác phát hiện. Để làm khoa học là tìm kiếm các mẫu lặp đi lặp lại. Để phát hiện sự bất thường là xác định các giá trị không tuân theo các mẫu lặp lại. Chúng ta học được từ Newton "Bất cứ ai biết cách tự nhiên sẽ dễ dàng nhận thấy những sai lệch của cô ấy và mặt khác, bất cứ ai biết những sai lệch của cô ấy sẽ mô tả chính xác hơn về cách của cô ấy". Người ta học các quy tắc bằng cách quan sát khi các quy tắc hiện tại thất bại. Hãy xem xét chuỗi thời gian 1,9,1,9,1,9,5,9. Để xác định sự bất thường người ta cần phải có một mô hình. "5" có nhiều điểm bất thường như "14". Để xác định mẫu chỉ cần sử dụng ARIMA và trong trường hợp này, "dị thường" trở nên rõ ràng. Hãy thử các phần mềm / cách tiếp cận khác nhau và xem cái nào gợi ý mô hình ARIMA theo thứ tự 1,0, 0 với hệ số -1.0. Sử dụng các thủ tục google / tìm kiếm để tìm "arima tự động" hoặc "phát hiện can thiệp tự động". Bạn có thể thất vọng bởi những thứ miễn phí vì nó có thể xứng đáng với những gì bạn phải trả cho nó. Tự viết nó có thể thú vị nếu bạn có một chuỗi thời gian nặng nề và một vài năm để lãng phí. Có những hạn chế nghiêm trọng đối với các phương pháp dựa trên khoảng cáchhttp://www3.ntu.edu.sg/SCE/pakdd2006/tutorial/chawla_tutorial_pakddslides.pdf


Cảm ơn bạn rất nhiều Sir IrishStat, tôi hoàn toàn ổn với bạn, rằng có một hạn chế lớn trong các phương pháp dựa trên khoảng cách và tôi cũng đoán các phương pháp khác, đây là lý do tại sao tôi đang thử nghiệm phương pháp cơ sở mật độ, tôi đã thấy rất nhiều bài báo nói về thời gian phát hiện dị thường hàng loạt, như nghiên cứu nasa, các trường đại học .. nhưng tiến bộ nhỏ, đối với các vấn đề dữ liệu cụ thể Và gần đây tôi đã tìm thấy, một phần mềm miễn phí tốt để phát hiện ngoại lệ: MOA của Weka! Bạn đã kiểm tra nó trước? đó là một phần mềm nguồn mở, tôi đang cố gắng sử dụng nó để phát triển và tích hợp thuật toán dị thường phát hiện nhỏ của mình,
napsterockoeur

oh: FYI: tôi đang xử lý dữ liệu phát trực tuyến
napsterockoeur
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.