Phân tích nhật ký máy chủ bằng cách sử dụng máy học

Tôi được giao nhiệm vụ này để phân tích nhật ký máy chủ của ứng dụng chứa nhật ký ngoại lệ, nhật ký sự kiện cơ sở dữ liệu, v.v. Tôi mới sử dụng máy học, chúng tôi sử dụng Spark với tìm kiếm đàn hồi và Sparks MLlib (hoặc Dự đoán). kết quả sẽ có thể dự đoán dựa trên các nhật ký ngoại lệ được thu thập để có thể dự đoán người dùng nào có khả năng gây ra ngoại lệ tiếp theo và tính năng nào (và một loạt các nội dung khác để theo dõi và cải thiện tối ưu hóa ứng dụng).

Tôi đã thành công trong việc nhập dữ liệu từ ElasticSearch vào tia lửa và tạo DataFrames và ánh xạ dữ liệu cần thiết. Điều tôi muốn biết là làm cách nào để tiếp cận khía cạnh Machine Learning trong quá trình triển khai của tôi. Tôi đã xem qua các bài báo và bài báo nói về tiền xử lý dữ liệu, đào tạo các mô hình dữ liệu và tạo nhãn và sau đó tạo dự đoán.

Những câu hỏi tôi có là

Làm thế nào để tôi tiếp cận chuyển đổi dữ liệu nhật ký thoát thành các vectơ số có thể được sử dụng cho các bộ dữ liệu được đào tạo.
Tôi sử dụng thuật toán nào để huấn luyện tập dữ liệu của mình (với kiến thức hạn chế tôi đã thu thập được trong vài ngày qua, tôi đã nghĩ đến việc thực hiện hồi quy tuyến tính, vui lòng đề xuất cách thực hiện nào là tốt nhất)

Chỉ cần tìm kiếm gợi ý về cách tiếp cận vấn đề này.

Cảm ơn bạn.

machine-learning predictive-modeling apache-spark

— elric
nguồn

Nếu bạn có khả năng dự đoán để tin rằng một người dùng nào đó có khả năng ngoại lệ cao thì bạn sẽ làm gì? Mục tiêu là tối ưu hóa ứng dụng. Bạn đang cố gắng tinh chỉnh những lỗi mà các kỹ sư nên dành thời gian của họ thay vì chỉ sửa các lỗi đã biết trong ứng dụng? Kỹ thuật tính năng có thể rất quan trọng đối với nhiệm vụ này. Ngoài ra, bạn có thể muốn xem xét hồi quy logistic sẽ tạo ra giá trị 0..1 có thể được hiểu là xác suất.

Tôi nghĩ rằng bạn đang quá mức trong các mục tiêu. Đừng coi ML là một hộp đen để làm phép thuật. Bạn phải đặt câu hỏi đúng (và có dữ liệu đầy đủ cho điều đó) để có được bất kỳ kết quả nào.

— Có QUIT - Anony-Mousse

Có phải vấn đề của bạn đã được giải quyết để dự đoán người dùng nào có nhiều khả năng gây ra ngoại lệ tiếp theo và tại tính năng nào (và một loạt các nội dung khác để theo dõi và cải thiện tối ưu hóa ứng dụng) ? Nếu có thì bạn có thể vui lòng chia sẻ cách tiếp cận giải pháp của bạn hoặc bất cứ ai khác có thể chia sẻ?

— Ashish Tyagi

Tôi không nghĩ rằng bạn nhất thiết phải chuyển đổi các mục nhật ký riêng lẻ thành các vectơ để sử dụng trong thuật toán. Tôi đoán rằng những gì bạn quan tâm là một chuỗi các mục nhật ký, đại diện cho một chuỗi các sự kiện, được sắp xếp theo thời gian, cùng nhau tạo nên một loạt các 'trường hợp'. Ở đây mối quan hệ giữa một loạt các mục nhật ký được thu thập là quan trọng.

Nếu đây là trường hợp thì bạn có thể muốn xem xét sử dụng các kỹ thuật Khai thác quy trình . Điều này cho phép bạn xây dựng các mô hình của quy trình của bạn (việc sử dụng ứng dụng của bạn) và xác định các mẫu của các bước quy trình, cùng với các lỗi và các bước làm lại.

Có một khóa học giới thiệu tốt về Coursera, ở đây . Thậm chí có một số gói thương mại được phát triển như 'sàn nhảy' để giúp bạn phân tích và trực quan hóa

— Oliver
nguồn