Tôi có một danh sách các từ, thuộc các loại tự xác định khác nhau. Mỗi danh mục có mẫu riêng (ví dụ: một loại có độ dài cố định với các ký tự đặc biệt, một loại khác tồn tại các ký tự chỉ xuất hiện trong danh mục "từ" này, ...).
Ví dụ:
"ABC" -> type1
"ACC" -> type1
"a8 219" -> type2
"c 827" -> type2
"ASDF 123" -> type2
"123123" -> type3
...
Tôi đang tìm kiếm một kỹ thuật học máy để tự học các mẫu này, dựa trên dữ liệu đào tạo. Tôi đã cố gắng tự xác định một số biến dự đoán (ví dụ: wordlength, số ký tự đặc biệt, ...) và sau đó sử dụng Mạng nơ-ron để tìm hiểu và dự đoán danh mục. Nhưng đó không phải là điều tôi muốn. Tôi muốn có một kỹ thuật để tự học mẫu cho từng loại - thậm chí để học các mẫu mà tôi chưa bao giờ nghĩ tới.
Vì vậy, tôi đưa ra dữ liệu học thuật toán (bao gồm các ví dụ về danh mục từ) và muốn nó học các mẫu cho từng loại để dự đoán sau danh mục từ các từ tương tự hoặc bằng nhau.
Có một cách hiện đại để làm điều đó?
Cảm ơn bạn đã giúp đỡ