Tôi là người mới bắt đầu sử dụng máy học (tôi đã hoàn thành khóa học của Ng), tôi đang sử dụng scikit-learn trong python. Tôi muốn tìm cách tốt nhất để phát hiện sự bất thường trong hệ thống của chúng tôi.
Chúng tôi có các sự kiện đang diễn ra theo lịch trình (cứ sau vài phút / giờ) và tôi muốn phát hiện khi có điều gì đó bất thường xảy ra. Dữ liệu ví dụ:
ID | epoch-time | duration (Sec) | status | is_manual
0400 | 1488801454 | 500 | completed | 1
0401 | 1488805055 | 500 | completed | 1
0402 | 1488812254 | 40000 | failed | 1
6831 | 1488805050 | 200 | failed | 0
.
... (Millions of examples)
.
0014 | 1488805055 | 1200 | completed | 0
vì vậy, ví dụ ID sự kiện 0400 xảy ra mỗi giờ một lần. Tôi muốn nói khi nó không chạy.
Những gì tôi dự định làm là cung cấp cho thuật toán tất cả các sự kiện trong 10 phút qua.
Câu hỏi chính: Làm thế nào để điều trị cột ID? Cách tiếp cận tốt nhất tôi nên làm là gì?