Bất cứ ai cũng biết về một công cụ để phát hiện và báo cáo về các mẫu lặp lại trong một tệp nhật ký? [đóng cửa]


12

Tôi cần theo dõi một số tệp nhật ký nhiễu lớn (500m / ngày) từ một ứng dụng Java (log4j). Ngay bây giờ tôi xem thủ công các tệp, grep cho "ERROR", v.v. Tuy nhiên, một công cụ có thể phát hiện các mẫu lặp lại trong tệp, đếm chúng và cung cấp chi tiết cho các mục riêng lẻ. Bất cứ ai cũng biết về một công cụ như vậy? Một giao diện người dùng dựa trên văn bản hoặc web sẽ là tốt đẹp.


1
Đối với tôi câu hỏi này hoàn toàn hét lên perl.
John Gardeniers

Hmm nó bắt đầu giống như tôi sẽ phải viết một kịch bản bash với rất nhiều greps. Tôi đã hy vọng có một cái gì đó tự động tìm ra các mẫu.
David Tinker

Nghiêm túc mà nói, đây chính xác là những gì perl được tạo ra. Bạn có thể viết một kịch bản tự học cho các mẫu đó, mặc dù điều đó rõ ràng nằm ngoài phạm vi ở đây.
John Gardeniers

stackoverflow.com/questions/2590251/ có một giải pháp gọi là Chainsaw.
John aka hot2use

datadoghq.com/blog/log-potypes <- rất khuyến khích, nhưng trong khi không đắt, nó cũng không phải là siêu rẻ.
neokyle

Câu trả lời:


3

Tôi đã nghe nói về những người áp dụng lọc Bayes trên các tệp nhật ký để phát hiện những thứ thú vị so với các mục nhật ký thông thường. Họ đã sử dụng các bộ lọc thư rác, trong đó các mục không quan tâm thường xuyên được coi là "tốt" trong khi các mục không bình thường được coi là "thư rác" và sử dụng màu đó họ có thể chuyển qua.

Nghe có vẻ giống như công cụ học máy đối với tôi, nhưng một lần nữa tôi đã không thấy nó hoạt động, chỉ nghe nói về nó qua các loại bia.


Điều này có vẻ hoàn toàn hợp lý với tôi, và bạn thậm chí có thể có những giả định rất mạnh mẽ trước đó (theo nghĩa Bayes) về những từ nhất định luôn hiển thị trong nhật ký máy chủ.
DrewConway

Yep điều này sẽ làm công việc. Bất cứ ai cũng biết một triển khai mà tôi có thể đào tạo?
David Tinker

Tôi đoán có thể bắt đầu với CRM114 . Hoặc đợi cho đến khi Drew Conway xuất bản Machine Learning for Hackers . Tôi vẫn đang làm việc để tìm tài liệu tham khảo ban đầu cho những gì tôi đề xuất.
adamo

Vâng! Tôi đọc nó trở lại vào năm 2005 trong chủ đề thành viên hiền triết này . Các tác giả của email đề cập đến tủ quần áo .
adamo

6

Splunk làm việc kỳ diệu cho loại công cụ này. Tôi sử dụng nó trong nội bộ để thu thập tất cả các bản ghi và thực hiện tìm kiếm nhanh thông qua giao diện dựa trên trình duyệt tuyệt vời của nó.


Thật không may, chúng tôi có thể sẽ cần phiên bản không miễn phí và hơi đắt tiền
David Tinker

3

syslog-ng có một tính năng tên patterndb. Bạn có thể tạo các mẫu và khớp các mục nhật ký với chúng trong thời gian thực sau đó gửi các mục đó đến các tệp nhật ký riêng biệt.


2

Trong khi xem xét syslog-ng và patterndb (+1 cho câu trả lời đó, ở trên), tôi đã gặp một công cụ dựa trên web có tên ELSA: http://code.google.com.vn/p/enterprise-log-search-and-archive/ . Đó là F / OSS trong perl, với giao diện web và được cho là rất nhanh.

Tôi chưa thử, nhưng một khi tôi đã lọc xong bằng patterndb, tôi sẽ thử ELSA.


1

Hãy thử petit .
Tôi không chắc liệu nó có hoạt động với định dạng log4j hay không, nhưng bạn có thể viết một bộ lọc tùy chỉnh cho điều đó.
Petit không có giao diện web, nó hiển thị biểu đồ trong vỏ của bạn (ASCII art ftw!).
Rất hữu ích để nhanh chóng thấy các tin nhắn lặp lại và tìm ra khi chúng xảy ra hoặc bắt đầu xảy ra thường xuyên hơn.



0

Glogg là một trình thám hiểm nhật ký rất tốt vì bạn có khả năng tạo cơ sở bộ lọc trên chuỗi và dòng màu hoặc truy xuất tất cả các lần xuất hiện thành một chuỗi.

http://glogg.bonnefon.org/


0

Splunk thường là một giải pháp tốt cho việc này. Nhưng bạn đã đề cập rằng nó quá đắt đối với bạn. Vì vậy, tôi khuyên bạn nên xem Logstash hoặc GrayLog .


-1

Bạn có thể dùng thử LogXtender của SEQREL, tự động phát hiện các mẫu và tổng hợp các nhật ký tương tự. Cách thực hiện là bằng cách tạo các biểu thức thông thường một cách nhanh chóng và sử dụng biểu thức chính được lưu trong bộ nhớ cache để khớp với các bản ghi khác. Với phát hiện phân loại bổ sung, độ chi tiết cao hơn có thể được thêm vào. Có thể tải xuống phiên bản miễn phí trong https://try.logxtender.net .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.