Lựa chọn tính năng tự động để phát hiện bất thường


11

Cách tốt nhất để tự động chọn các tính năng để phát hiện bất thường là gì?

Tôi thường coi Phát hiện dị thường là một thuật toán trong đó các tính năng được các chuyên gia con người lựa chọn: điều quan trọng là phạm vi đầu ra (như trong "đầu vào bất thường - đầu ra bất thường") vì vậy ngay cả với nhiều tính năng bạn có thể đưa ra một tập hợp con nhỏ hơn nhiều bằng cách kết hợp các tính năng.

Tuy nhiên, giả sử rằng trong trường hợp chung, một danh sách tính năng có thể rất lớn, có lẽ việc học tự động đôi khi được ưa thích hơn. Theo như tôi có thể thấy, có một số nỗ lực:

  • "Lựa chọn tính năng tự động để phát hiện bất thường" ( pdf ) giúp khái quát hóa Mô tả dữ liệu Vector hỗ trợ
  • "Một hệ thống phát hiện xâm nhập dựa trên máy chủ nhanh sử dụng lý thuyết tập thô" (không có sẵn pdf?), Theo tôi đoán, sử dụng lý thuyết Rough Set
  • "Quy tắc học tập để phát hiện bất thường lưu lượng truy cập mạng thù địch" ( pdf , video ) sử dụng phương pháp thống kê

Vì vậy, bây giờ tôi tự hỏi nếu có ai có thể nói - giả sử phát hiện bất thường và một bộ tính năng thực sự lớn (hàng trăm?):

  1. Những bộ tính năng khổng lồ đó có ý nghĩa gì không? Chúng ta không nên giảm tính năng được thiết lập, giả sử, một vài chục và đó là nó?
  2. Nếu các bộ tính năng khổng lồ có ý nghĩa, một trong những cách tiếp cận ở trên sẽ đưa ra dự đoán tốt hơn, và tại sao? Có bất cứ điều gì không được liệt kê đó là tốt hơn nhiều?
  3. Tại sao họ nên cho kết quả tốt hơn so với, nói, giảm kích thước hoặc xây dựng tính năng thông qua phân cụm / xếp hạng / vv?

Liên kết của bạn đã không đưa ra bất kỳ câu hỏi cụ thể cho tôi. Bạn có thể đưa ra một mô tả ngắn gọn về vấn đề? Mục tiêu là gì? Đây có phải là một vấn đề học tập có giám sát hoặc không giám sát?
AdamO

Câu hỏi được gửi từ ML.SE hiện đang đóng cửa - rõ ràng các quản trị viên đã không hợp nhất trong tất cả các câu hỏi. Tôi đã chỉnh sửa văn bản ngay bây giờ để nêu rõ vấn đề!
andreister

Câu trả lời:


1

Một cách tiếp cận thực tế (trong trường hợp học ít nhất có giám sát) là bao gồm tất cả các tính năng có thể có liên quan và sử dụng mô hình tuyến tính (tổng quát) (hồi quy logistic, svm tuyến tính, v.v.) với chính quy (L1 và / hoặc L2). Có các công cụ nguồn mở (ví dụ Vowpal Wợi) có thể xử lý hàng nghìn tỷ kết hợp ví dụ / tính năng cho các loại mô hình này để khả năng mở rộng không phải là vấn đề (bên cạnh đó, người ta luôn có thể sử dụng lấy mẫu phụ). Việc chính quy giúp đối phó với lựa chọn tính năng.


Nhưng làm thế nào để chọn các tính năng trong cài đặt không giám sát (mà không cần sử dụng mô hình tuyến tính, v.v., để đưa ra các tính năng quan trọng)? Một cách tôi có thể nghĩ đến là sử dụng PCA để giữ lại một số phương sai và giảm kích thước dữ liệu. Nhưng một lần nữa, việc giảm dữ liệu trong vấn đề phát hiện bất thường có vẻ nguy hiểm vì bạn có thể sẽ bỏ lỡ các ngoại lệ thực tế mà bạn muốn dự đoán. Do đó nhầm lẫn.
Sangram
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.