Xác định các mẫu liên tiếp


8

Tôi đang làm việc với dữ liệu chuỗi là danh sách dài các cuộc gọi win-api phần mềm độc hại. Tôi đang cố gắng đưa vấn đề xác định 'hành vi phần mềm độc hại' vào một trong việc tìm kiếm các mẫu liên tiếp. Tôi coi mỗi cuộc gọi api là một mục Itemet. Số lượng các mặt hàng khác nhau có thể (cuộc gọi api) là khá lớn.

Bây giờ, khi tôi áp dụng thuật toán SPADE (xem thêm, Zaki, SPADE: Thuật toán hiệu quả để khai thác các chuỗi thường xuyên , Học máy, 42, 31 Lỗi60, 2001) Tôi gặp vấn đề về bộ nhớ. Có cách nào khác tốt hơn để tìm các mẫu liên tiếp trong số các chuỗi từ vựng lớn lớn không?


Bạn có thể sử dụng phương pháp Markov-Chain Monte-Carlo không?
Zach

Câu trả lời:


2

Bạn có thể ánh xạ dữ liệu vào một không gian tính năng trong đó trình tự là quan trọng, cùng với cả hai số liệu thống kê được tính trên các cửa sổ trượt & thống kê tích lũy và sử dụng dữ liệu đó trong cây quyết định.

Cây quyết định có thể xử lý cả chuỗi và dữ liệu không tuần tự. Điều này có thể làm giảm đáng kể sự phức tạp dữ liệu của bạn.


1

Bạn có thể thử thuật toán khai thác mô hình tuần tự khác.

Ví dụ, thư viện khai thác dữ liệu java SPMF nguồn mở cung cấp SPADE, nhưng cũng có PrefixSpan, SPAM, CM-SPAM, CM-SPADE, GSP, v.v. (nhân tiện, tôi là người sáng lập dự án). Theo hiểu biết của tôi, CM-SPADE thường nhanh hơn SPADE. Về mặt bộ nhớ có lẽ SPAM sử dụng ít bộ nhớ hơn .. Bạn có thể thử nó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.