Tôi đang cố gắng thiết lập một cơ sở hạ tầng dữ liệu lớn bằng Hadoop, Hive, Tìm kiếm đàn hồi (trong số những người khác) và tôi muốn chạy một số thuật toán trên các bộ dữ liệu nhất định. Tôi muốn bản thân các thuật toán có thể mở rộng được, vì vậy, điều này loại trừ việc sử dụng các công cụ như Weka, R hoặc thậm chí là RHadoop. Các Apache Mahout Thư viện có vẻ là một lựa chọn tốt, và nó có tính năng thuật toán cho hồi quy và phân nhóm nhiệm vụ .
Những gì tôi đang đấu tranh để tìm là một giải pháp cho sự phát hiện bất thường hoặc ngoại lệ.
Vì Mahout có các Mô hình Markov ẩn và một loạt các kỹ thuật phân cụm (bao gồm cả K-Means), tôi đã tự hỏi liệu có thể xây dựng một mô hình để phát hiện các ngoại lệ trong chuỗi thời gian hay không, sử dụng bất kỳ phương pháp nào trong số này. Tôi sẽ biết ơn nếu ai đó có kinh nghiệm về điều này có thể tư vấn cho tôi
- nếu có thể, và trong trường hợp nó là
- làm thế nào để làm điều đó, cộng với
- một ước tính của những nỗ lực liên quan và
- độ chính xác / vấn đề của phương pháp này.