Cách tốt nhất để tự động chọn các tính năng để phát hiện bất thường là gì?
Tôi thường coi Phát hiện dị thường là một thuật toán trong đó các tính năng được các chuyên gia con người lựa chọn: điều quan trọng là phạm vi đầu ra (như trong "đầu vào bất thường - đầu ra bất thường") vì vậy ngay cả với nhiều tính năng bạn có thể đưa ra một tập hợp con nhỏ hơn nhiều bằng cách kết hợp các tính năng.
Tuy nhiên, giả sử rằng trong trường hợp chung, một danh sách tính năng có thể rất lớn, có lẽ việc học tự động đôi khi được ưa thích hơn. Theo như tôi có thể thấy, có một số nỗ lực:
- "Lựa chọn tính năng tự động để phát hiện bất thường" ( pdf ) giúp khái quát hóa Mô tả dữ liệu Vector hỗ trợ
- "Một hệ thống phát hiện xâm nhập dựa trên máy chủ nhanh sử dụng lý thuyết tập thô" (không có sẵn pdf?), Theo tôi đoán, sử dụng lý thuyết Rough Set
- "Quy tắc học tập để phát hiện bất thường lưu lượng truy cập mạng thù địch" ( pdf , video ) sử dụng phương pháp thống kê
Vì vậy, bây giờ tôi tự hỏi nếu có ai có thể nói - giả sử phát hiện bất thường và một bộ tính năng thực sự lớn (hàng trăm?):
- Những bộ tính năng khổng lồ đó có ý nghĩa gì không? Chúng ta không nên giảm tính năng được thiết lập, giả sử, một vài chục và đó là nó?
- Nếu các bộ tính năng khổng lồ có ý nghĩa, một trong những cách tiếp cận ở trên sẽ đưa ra dự đoán tốt hơn, và tại sao? Có bất cứ điều gì không được liệt kê đó là tốt hơn nhiều?
- Tại sao họ nên cho kết quả tốt hơn so với, nói, giảm kích thước hoặc xây dựng tính năng thông qua phân cụm / xếp hạng / vv?