Tôi đang làm việc với một chuỗi thời gian của điểm bất thường (nền là phát hiện bất thường trong mạng máy tính). Mỗi phút, tôi nhận được số điểm bất thường cho tôi biết mức độ "bất ngờ" hoặc bất thường của trạng thái hiện tại của mạng. Điểm càng cao, trạng thái hiện tại càng bất thường. Điểm gần với 5 về mặt lý thuyết là có thể nhưng xảy ra gần như không bao giờ.
Bây giờ tôi muốn đưa ra một thuật toán hoặc một công thức tự động xác định ngưỡng cho chuỗi thời gian bất thường này. Ngay khi điểm số bất thường vượt quá ngưỡng này, một báo động sẽ được kích hoạt.
Phân phối tần số dưới đây là một ví dụ cho chuỗi thời gian bất thường trong hơn 1 ngày. Tuy nhiên, sẽ không an toàn khi cho rằng mọi chuỗi thời gian dị thường sẽ trông như thế. Trong ví dụ đặc biệt này, một ngưỡng bất thường như .99-quantile sẽ có ý nghĩa vì một vài điểm ở bên phải có thể được coi là dị thường.
Và phân phối tần số giống như chuỗi thời gian (nó chỉ nằm trong khoảng từ 0 đến 1 do không có điểm bất thường cao hơn trong chuỗi thời gian):
Thật không may, phân phối tần số có thể có hình dạng, trong đó .99-quantile không hữu ích . Một ví dụ dưới đây. Đuôi bên phải rất thấp, do đó, nếu định lượng 0,99 được sử dụng làm ngưỡng, điều này có thể dẫn đến nhiều kết quả dương tính giả. Phân phối tần số này dường như không chứa bất thường, vì vậy ngưỡng nên nằm ngoài phân phối ở khoảng 0,25.
Tóm lại, sự khác biệt giữa hai ví dụ này là cái đầu tiên dường như thể hiện sự bất thường trong khi cái thứ hai thì không.
Theo quan điểm ngây thơ của tôi, thuật toán nên xem xét hai trường hợp sau:
- Nếu phân phối tần số có đuôi phải lớn (nghĩa là một vài điểm bất thường), thì định lượng 0,99 có thể là một ngưỡng tốt.
- Nếu phân phối tần số có đuôi phải rất ngắn (nghĩa là không có điểm bất thường), thì ngưỡng nên nằm ngoài phân phối.
/ chỉnh sửa: Cũng không có sự thật cơ bản, tức là bộ dữ liệu được dán nhãn có sẵn. Vì vậy, thuật toán là "mù" so với bản chất của điểm số dị thường.
Bây giờ tôi không chắc làm thế nào những quan sát này có thể được thể hiện dưới dạng thuật toán hoặc công thức. Có ai có một đề nghị làm thế nào vấn đề này có thể được giải quyết? Tôi hy vọng rằng những lời giải thích của tôi là đủ vì nền tảng thống kê của tôi rất hạn chế.
Cảm ơn bạn đã giúp đỡ!