Phát hiện dị thường với mạng lưới thần kinh


12

Tôi có một bộ dữ liệu đa chiều lớn được tạo ra mỗi ngày.

Điều gì sẽ là một cách tiếp cận tốt để phát hiện bất kỳ loại 'dị thường' nào so với những ngày trước? Đây có phải là một vấn đề phù hợp có thể được giải quyết với các mạng thần kinh?

Bất kỳ đề xuất đều được đánh giá cao.

thông tin bổ sung: không có ví dụ, vì vậy phương pháp sẽ tự phát hiện sự bất thường

Câu trả lời:


12

Từ việc xây dựng câu hỏi, tôi cho rằng không có "ví dụ" nào về sự bất thường (tức là nhãn). Với giả định đó, một cách tiếp cận khả thi sẽ là sử dụng các bộ tự động : mạng thần kinh nhận dữ liệu đầu vào của bạn và được đào tạo để xuất dữ liệu đó. Ý tưởng là việc đào tạo đã cho phép mạng tìm hiểu các biểu diễn của phân phối dữ liệu đầu vào dưới dạng các biến tiềm ẩn.

Có một loại autoencoder gọi denoising autoencoder , được đào tạo với các phiên bản lỗi của dữ liệu gốc như là đầu vào và với uncorrupted dữ liệu gốc như đầu ra. Điều này mang lại một mạng có thể loại bỏ nhiễu (tức là hỏng dữ liệu) khỏi các đầu vào.

Bạn có thể đào tạo một bộ mã hóa tự động khử nhiễu với dữ liệu hàng ngày. Sau đó sử dụng nó trên dữ liệu hàng ngày mới; bằng cách này, bạn có dữ liệu hàng ngày ban đầu và một phiên bản chưa được sửa chữa của những dữ liệu rất giống nhau. Sau đó, bạn có thể so sánh cả hai để phát hiện sự khác biệt đáng kể .

Chìa khóa ở đây là định nghĩa về sự khác biệt đáng kể mà bạn chọn. Bạn có thể tính toán khoảng cách euclide và giả sử rằng nếu nó vượt quá ngưỡng tùy ý nhất định, bạn có sự bất thường. Một yếu tố quan trọng khác là loại tham nhũng mà bạn giới thiệu; họ nên càng gần càng tốt với những bất thường hợp lý.

Một lựa chọn khác là sử dụng Mạng đối thủ tổng hợp . Sản phẩm phụ của khóa đào tạo là một mạng phân biệt đối xử phân biệt dữ liệu hàng ngày bình thường với dữ liệu bất thường.


4

Tôi nghĩ rằng điều đó phụ thuộc nhiều vào bản chất của dữ liệu của bạn (phân loại / liên tục). Trước tiên tôi sẽ bắt đầu với các phương pháp đơn giản. Những điều đó đến với tâm trí của tôi:

  • Bạn có thể so sánh phân phối của từng biến bằng cách sử dụng các lượng tử hoặc bất kỳ kiểm tra thống kê nào để xem liệu chúng có khác nhau đáng kể không
  • Bạn cũng có thể đếm sự xuất hiện của từng nhãn / danh mục và so sánh chúng
  • Tôi cũng sẽ cố gắng sử dụng bất kỳ loại thước đo khoảng cách. Ví dụ: bạn có thể tính toán khoảng cách mahalanobis và tìm kiếm những thay đổi lớn
  • Hoặc một cái gì đó thực sự đơn giản - chỉ cần một sự khác biệt tuyệt đối giữa dữ liệu mới và dữ liệu cũ, đặt ngưỡng và mọi thứ vượt quá ngưỡng sẽ được báo cáo
  • Bạn cũng có thể áp dụng một số kỹ thuật đa chiều - như ma trận tương quan, các thành phần chính, phân cụm, v.v. và tìm kiếm các thay đổi

Nếu không có cái nào trong số này phù hợp, thì có cả nhánh thống kê / mô hình ML chuyên phát hiện sự bất thường. SVM, t-SNE, Rừng cách ly, Phân tích nhóm ngang hàng , Phân tích điểm đột phá , chuỗi thời gian (nơi bạn sẽ tìm kiếm các ngoại lệ theo xu hướng bên ngoài).

Những phương pháp đó có lợi thế là chúng là loại hộp trắng, vì vậy bạn có thể biết tại sao một người nào đó là một ngoại lệ. Nếu đây không phải là điều bạn muốn, những người khác đề xuất phương pháp ANN, cũng sẽ hiệu quả.


0

Tôi đang cố gắng giải quyết một vấn đề tương tự. Tập dữ liệu của bạn có chứa hỗn hợp các tính năng văn bản và số không? Nếu vậy độ phức tạp của việc phát hiện dị thường tăng lên (tôi không biết yếu tố nào). Nếu tập dữ liệu của bạn là thống nhất, ví dụ chỉ chứa các giá trị số, bạn có khả năng có thể sử dụng RNN vẫn cần một tập dữ liệu được gắn nhãn nhưng nó có thể phát hiện chuỗi thời gian như các mẫu (vì bạn đề cập so sánh với các giá trị ngày phổ biến cho ví dụ)


0

Một cách đơn giản để thực hiện việc này bằng cách sử dụng Bộ tạo tự động (không có "khử nhiễu bộ tự động" cần được đào tạo với "dữ liệu bị hỏng") là đào tạo bộ mã hóa tự động và sau đó kiểm tra RMSE của các hàng từ đầu vào không giải mã tốt rằng bộ mã hóa tự động đã có một thời gian khó để xây dựng lại). Theo một số định nghĩa rằng dữ liệu sẽ đại diện cho sự bất thường (chắc chắn đây sẽ là trường hợp đối với những thứ như tăng đột biến trong lưu lượng truy cập).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.