Tôi được giao nhiệm vụ này để phân tích nhật ký máy chủ của ứng dụng chứa nhật ký ngoại lệ, nhật ký sự kiện cơ sở dữ liệu, v.v. Tôi mới sử dụng máy học, chúng tôi sử dụng Spark với tìm kiếm đàn hồi và Sparks MLlib (hoặc Dự đoán). kết quả sẽ có thể dự đoán dựa trên các nhật ký ngoại lệ được thu thập để có thể dự đoán người dùng nào có khả năng gây ra ngoại lệ tiếp theo và tính năng nào (và một loạt các nội dung khác để theo dõi và cải thiện tối ưu hóa ứng dụng).
Tôi đã thành công trong việc nhập dữ liệu từ ElasticSearch vào tia lửa và tạo DataFrames và ánh xạ dữ liệu cần thiết. Điều tôi muốn biết là làm cách nào để tiếp cận khía cạnh Machine Learning trong quá trình triển khai của tôi. Tôi đã xem qua các bài báo và bài báo nói về tiền xử lý dữ liệu, đào tạo các mô hình dữ liệu và tạo nhãn và sau đó tạo dự đoán.
Những câu hỏi tôi có là
Làm thế nào để tôi tiếp cận chuyển đổi dữ liệu nhật ký thoát thành các vectơ số có thể được sử dụng cho các bộ dữ liệu được đào tạo.
Tôi sử dụng thuật toán nào để huấn luyện tập dữ liệu của mình (với kiến thức hạn chế tôi đã thu thập được trong vài ngày qua, tôi đã nghĩ đến việc thực hiện hồi quy tuyến tính, vui lòng đề xuất cách thực hiện nào là tốt nhất)
Chỉ cần tìm kiếm gợi ý về cách tiếp cận vấn đề này.
Cảm ơn bạn.