Phát hiện ngoại lệ / phát hiện bất thường


10

Tôi đang cố gắng thiết lập một cơ sở hạ tầng dữ liệu lớn bằng Hadoop, Hive, Tìm kiếm đàn hồi (trong số những người khác) và tôi muốn chạy một số thuật toán trên các bộ dữ liệu nhất định. Tôi muốn bản thân các thuật toán có thể mở rộng được, vì vậy, điều này loại trừ việc sử dụng các công cụ như Weka, R hoặc thậm chí là RHadoop. Các Apache Mahout Thư viện có vẻ là một lựa chọn tốt, và nó có tính năng thuật toán cho hồi quy và phân nhóm nhiệm vụ .

Những gì tôi đang đấu tranh để tìm là một giải pháp cho sự phát hiện bất thường hoặc ngoại lệ.

Vì Mahout có các Mô hình Markov ẩn và một loạt các kỹ thuật phân cụm (bao gồm cả K-Means), tôi đã tự hỏi liệu có thể xây dựng một mô hình để phát hiện các ngoại lệ trong chuỗi thời gian hay không, sử dụng bất kỳ phương pháp nào trong số này. Tôi sẽ biết ơn nếu ai đó có kinh nghiệm về điều này có thể tư vấn cho tôi

  1. nếu có thể, và trong trường hợp nó là
  2. làm thế nào để làm điều đó, cộng với
  3. một ước tính của những nỗ lực liên quan và
  4. độ chính xác / vấn đề của phương pháp này.

1
Điều này quá mơ hồ để được trả lời. Chuỗi thời gian quá khác nhau khi chỉ cần ném phương tiện k vào chúng và lấy ra bất cứ thứ gì hữu ích. Nó phụ thuộc rất nhiều vào dữ liệu của bạn.
Có QUIT - Anony-Mousse

1
Để phát hiện ngoại lệ, hãy xem các thuật toán trong ELKI. Đó dường như là bộ sưu tập đầy đủ nhất của phát hiện ngoại lệ.
Có QUIT - Anony-Mousse

Các phiên bản Elaticsearch mới hơn có tính năng phát hiện dị thường theo chuỗi thời gian được tích hợp (Tôi nghĩ bạn phải mua X-Pack). Tôi không chắc chắn họ đang sử dụng thuật toán nào nhưng có thể đáng để nghiên cứu một giải pháp sẵn có.
tom

Câu trả lời:


7

Làm thế nào để t-digest so với thuật toán p-vuông?
David Marx

Cảm ơn câu trả lời: đây là một mô hình đơn giản để tính toán các lượng tử cực trị, và tôi nghĩ nó sẽ phù hợp với nhu cầu của tôi. Tuy nhiên, đối với chuỗi thời gian phức tạp hơn không có phân phối gần như ổn định, phương pháp này có thể thất bại và đó là khi tôi nghĩ rằng chúng ta sẽ cần một cái gì đó thích ứng như chuỗi Markov.
doublebyte

0

Bạn có thể tham khảo phản hồi của tôi liên quan đến phương pháp phát hiện dị thường h2o R hoặc Python trong stackexchange , vì đó cũng có thể mở rộng được.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.