Tôi đang cố gắng xây dựng một tập dữ liệu trên một số tệp nhật ký của một trong các sản phẩm của chúng tôi.
Các tệp nhật ký khác nhau có bố cục riêng và nội dung riêng; Tôi đã nhóm chúng thành công lại với nhau, chỉ còn một bước nữa ...
Thật vậy, nhật ký "tin nhắn" là thông tin tốt nhất. Tôi không có danh sách toàn diện về tất cả các tin nhắn đó và đó là một ý tưởng tồi đối với mã cứng dựa trên những tin nhắn đó vì danh sách đó có thể thay đổi mỗi ngày.
Những gì tôi muốn làm là tách văn bản thụt ra khỏi văn bản giá trị (ví dụ: "Tệp đã tải XXX" trở thành (nhận dạng: "Tệp đã tải", giá trị: "XXX")). Thật không may, ví dụ này rất đơn giản và trong thế giới thực có nhiều cách bố trí khác nhau và đôi khi là nhiều giá trị.
Tôi đã suy nghĩ về việc sử dụng hạt nhân chuỗi, nhưng nó được dùng để phân cụm ... và việc xóa bỏ không được áp dụng ở đây (tôi không biết số lượng các loại tin nhắn và sự kiện khác nhau, nó sẽ quá nhiều).
Bạn còn ý kiến nào không?
Cảm ơn bạn đã giúp đỡ.
PS: Đối với những người lập trình, điều này có thể dễ hiểu hơn. Giả sử mã chứa các bản ghi printf ("blabla% s", "xxx") -> Tôi muốn có "blabla" và "xxx" tách biệt