Tôi có rất nhiều chuỗi địa chỉ:
1600 Pennsylvania Ave, Washington, DC 20500 USA
Tôi muốn phân tích chúng thành các thành phần của chúng:
street: 1600 Pennsylvania Ave
city: Washington
province: DC
postcode: 20500
country: USA
Nhưng tất nhiên dữ liệu là bẩn: nó đến từ nhiều quốc gia bằng nhiều ngôn ngữ, được viết theo nhiều cách khác nhau, chứa lỗi chính tả, thiếu các mảnh, có thêm rác, v.v.
Ngay bây giờ cách tiếp cận của chúng tôi là sử dụng các quy tắc kết hợp với công cụ tìm kiếm mờ, nhưng chúng tôi muốn khám phá các kỹ thuật học máy. Chúng tôi đã dán nhãn dữ liệu đào tạo cho việc học có giám sát. Câu hỏi là, loại vấn đề máy học này là gì? Nó không thực sự có vẻ là phân cụm, hoặc phân loại hoặc hồi quy ....
Cách gần nhất tôi có thể đưa ra là phân loại từng mã thông báo, nhưng sau đó bạn thực sự muốn phân loại tất cả chúng đồng thời, thỏa mãn các ràng buộc như "nên có nhiều nhất một quốc gia;" và thực sự có nhiều cách để token hóa một chuỗi, và bạn muốn thử từng chuỗi và chọn thứ tốt nhất .... Tôi biết có tồn tại một thứ gọi là phân tích thống kê, nhưng không biết gì về nó.
Vậy: tôi có thể khám phá những kỹ thuật máy học nào để phân tích địa chỉ?