Thuật toán phát hiện dị thường chuỗi thời gian


24

Tôi hiện đang sử dụng AnomalyDetection của Twitter trong R: https://github.com/twitter/AnomalyDetection . Thuật toán này cung cấp phát hiện bất thường chuỗi thời gian cho dữ liệu theo mùa.

Câu hỏi: có thuật toán nào khác tương tự như vậy không (kiểm soát tính thời vụ không thành vấn đề)?

Tôi đang cố gắng chấm điểm càng nhiều thuật toán chuỗi thời gian càng tốt trên dữ liệu của mình để tôi có thể chọn một thuật toán / nhóm tốt nhất.

Câu trả lời:


16

Thuật toán Twitter dựa trên

Rosner, B ..

Tôi chắc chắn đã có nhiều kỹ thuật và tiến bộ kể từ năm 1983!. Tôi đã kiểm tra dữ liệu nội bộ của mình và phát hiện bất thường của Twitter không xác định các ngoại lệ rõ ràng. Tôi cũng sẽ sử dụng các phương pháp khác để kiểm tra các ngoại lệ trong chuỗi thời gian. Điều tốt nhất mà tôi đã gặp là quy trình phát hiện ngoại lệ của Tsay được triển khai trong phần mềm SAS / SPSS / Autobox và SCA. Tất cả đều là hệ thống thương mại. Ngoài ra còn có gói tsoutliers rất tuyệt nhưng cần đặc điểm kỹ thuật của arimamô hình để hoạt động hiệu quả. Tôi đã có vấn đề với mặc định của nó auto.arimaliên quan đến tối ưu hóa và lựa chọn mô hình.

Bài báo của Tsay là một tác phẩm có ý nghĩa trong việc phát hiện ngoại lệ trong chuỗi thời gian. Tạp chí hàng đầu trong nghiên cứu dự báo Tạp chí Dự báo Quốc tế đã đề cập rằng bài báo của Tsay là một trong những tác phẩm được trích dẫn nhiều nhất và có ảnh hưởng nhất trong một bài viết được liên kết ở trên (cũng xem bên dưới). Phổ biến công việc quan trọng này và các thuật toán phát hiện ngoại lệ khác trong phần mềm dự báo (đặc biệt là trong phần mềm nguồn mở) là rất hiếm.

nhập mô tả hình ảnh ở đây


14

Dưới đây là các tùy chọn cho Phát hiện bất thường trong R vào năm 2017.

Gói bất thường của Twitter

  • Hoạt động bằng cách sử dụng ESD theo mùa (SH-ESD);
  • Được xây dựng dựa trên thử nghiệm ESD tổng quát để phát hiện dị thường;
  • Có thể phát hiện cả dị thường địa phương và toàn cầu;
  • Sử dụng phân tách chuỗi thời gian và số liệu thống kê mạnh mẽ (ví dụ: trung vị cùng với ESD)
  • Sử dụng xấp xỉ piecewise cho chuỗi thời gian dài;
  • Cũng có phương pháp khi tem thời gian không có sẵn;
  • Có thể chỉ định hướng của sự bất thường, cửa sổ quan tâm, chuyển đổi gần đúng piecewise và có hỗ trợ hình ảnh.

Gói dị thường (khác với Twitter)

  • các cách tiếp cận khác nhau bao gồm khoảng cách Mahalanobis, phân tích nhân tố, phân tích song song của Horn, kiểm tra khối, phân tích thành phần nguyên tắc;
  • Có phương pháp xử lý kết quả.

gói tsoutliers

  • Phát hiện các ngoại lệ trong chuỗi thời gian theo quy trình Chen và Liu ( https://www.jstor.org/urdy/2290724?seq=1#page_scan_tab_contents );
  • Các ngoại lệ thu được dựa trên ước tính 'ít bị ô nhiễm' của các tham số mô hình, ước tính các hiệu ứng ngoại lệ bằng cách sử dụng nhiều hồi quy tuyến tính và ước tính các tham số và hiệu ứng mô hình cùng nhau.
  • Người tiêu dùng đổi mới ngoại lệ, ngoại lệ phụ gia, thay đổi cấp độ, thay đổi tạm thời và thay đổi cấp độ theo mùa.

acm dị thường

  • Hoạt động bằng cách tính toán một vectơ các tính năng trên mỗi chuỗi thời gian (ví dụ như tương quan độ trễ, độ mạnh của tính thời vụ, entropy phổ) sau đó áp dụng phân tách thành phần chính mạnh mẽ trên các tính năng và cuối cùng áp dụng các phương pháp phát hiện ngoại lệ khác nhau cho hai thành phần chính đầu tiên;
  • Cho phép các chuỗi bất thường nhất, dựa trên các vectơ đặc trưng của chúng, được xác định;
  • Gói chứa cả bộ dữ liệu thực và tổng hợp từ Yahoo.

gói cầu vồng

  • Sử dụng bagplots và boxplots;
  • Xác định các ngoại lệ với độ sâu hoặc mật độ thấp nhất.

gói kmodR

  • Sử dụng triển khai phương tiện k được đề xuất bởi Chawla và Gionis vào năm 2013 ( http://epub.siam.org/doi/pdf/10.1137/1.9781611972832.21 );
  • Hữu ích cho việc tạo các cụm (có khả năng) chặt chẽ hơn các phương tiện k tiêu chuẩn và đồng thời tìm ra các ngoại lệ không tốn kém trong không gian đa chiều.

phương pháp washeR

Khung nhìn Nhiệm vụ CRAN cho Phương pháp thống kê mạnh mẽ

  • Một loạt các phương pháp sử dụng các phương pháp thống kê mạnh mẽ để phát hiện các ngoại lệ.

EDIT 2018

dị thường: Phát hiện dị thường gọn gàng


Bất kỳ đề xuất nào tôi có thể sử dụng cho dữ liệu chuỗi thời gian, nhưng không có tính thời vụ? Tôi có thể sử dụng gói twitter trong trường hợp đó không?
MikeHuber

Gói Twitter xử lý các bất thường địa phương và toàn cầu. Như họ nói trong các tài liệu của họ, "sự bất thường toàn cầu thường mở rộng trên hoặc dưới tính thời vụ dự kiến ​​và do đó không phải tuân theo tính thời vụ và xu hướng cơ bản." Vì vậy, có, bạn có thể sử dụng gói Twitter để có khả năng phát hiện sự bất thường trong chuỗi thời gian không có tính thời vụ. blog.twitter.com/engineering/en_us/a/2015/iêu
Từ trường

8

Tôi đã tìm thấy một số nguồn có thể giúp bạn nhưng chúng sẽ không dễ dàng / thuận tiện như chạy tập lệnh R trên dữ liệu của bạn: - Numenta có nền tảng NuPIC có nguồn mở được sử dụng cho nhiều thứ bao gồm cả phát hiện bất thường . - Dự án Atlas của Netflix sẽ sớm phát hành một công cụ phát hiện ngoại lệ / dị thường nguồn mở. - Prelert có một công cụ phát hiện bất thường đi kèm như một ứng dụng phía máy chủ. Thử nghiệm của họ cung cấp việc sử dụng hạn chế có thể đáp ứng nhu cầu của bạn.

Ngoài ra, công ty của tôi, Insignum , có một sản phẩm ở giai đoạn thử nghiệm, nhập dữ liệu chuỗi thời gian và phát hiện sự bất thường theo cách hoàn toàn tự động và bạn chỉ cần nhận thông báo qua email khi phát hiện dị thường. Tiếp cận trên Twitter hoặc Linkedin và tôi rất vui được nói với bạn nhiều hơn.


3

Autobox (công ty của tôi) cung cấp phát hiện ngoại lệ. Thuật toán của Twitter có được các ngoại lệ lớn, nhưng bỏ lỡ các thuật toán nhỏ hơn so với Autobox .

Phải mất một thời gian dài để chạy, nhưng kết quả tốt hơn cho việc tìm ra các ngoại lệ nhỏ hơn và cũng thay đổi tính thời vụ cũng là ngoại lệ. Dưới đây là mô hình tìm 79 ngoại lệ bằng cách sử dụng 8,560 quan sát đầu tiên của 14.398 quan sát ban đầu. Phiên bản tiêu chuẩn tối đa là 10.000 quan sát, nhưng nó có thể được sửa đổi để biết thêm, nhưng không có lý do thực sự nào để có nhiều dữ liệu như vậy khi bạn muốn xác định và phản hồi các ngoại lệ.

Chúng tôi bị ảnh hưởng bởi công việc của Tsay về các ngoại lệ, thay đổi cấp độ và thay đổi phương sai và công việc của Chow về thay đổi tham số cùng với công việc của chúng tôi về việc phát hiện các thay đổi theo mùa,

Nếu bạn tải xuống bản dùng thử 30 ngày và tải dữ liệu ví dụ Twitter và chỉ định tần số là 60 và lưu 3 tệp kích hoạt trong thư mục cài đặt (noparcon.afs, novarcon.afs, notrend.afs) và tạo một tệp có tên là stepupde. afs với 100.

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.