Tôi muốn biết làm thế nào để khớp các địa chỉ bưu chính khi định dạng của chúng khác nhau hoặc khi một trong số chúng bị sai chính tả.
Cho đến nay tôi đã tìm thấy các giải pháp khác nhau nhưng tôi nghĩ rằng chúng khá cũ và không hiệu quả lắm. Tôi chắc chắn có một số phương pháp tốt hơn tồn tại, vì vậy nếu bạn có tài liệu tham khảo để tôi đọc, tôi chắc chắn đó là một chủ đề có thể khiến nhiều người quan tâm.
Giải pháp tôi tìm thấy (ví dụ là trong R):
Khoảng cách Levenshtein, bằng với số lượng ký tự bạn phải chèn, xóa hoặc thay đổi để chuyển đổi một từ thành một từ khác.
agrep("acusait", c("accusait", "abusait"), max = 2, value = TRUE)
## [1] "accusait" "abusait"
Việc so sánh các âm vị
library(RecordLinkage)
soundex(x<-c('accusait','acusait','abusait'))
## [1] "A223" "A223" "A123"
Tôi đoán việc sử dụng một bộ sửa lỗi chính tả (cuối cùng là một người Bayes như Peter Norvig) , nhưng tôi đoán không hiệu quả lắm về địa chỉ.
Tôi đã nghĩ về việc sử dụng các đề xuất của Google, nhưng tương tự, nó không hiệu quả trên các địa chỉ bưu chính cá nhân.
Bạn có thể tưởng tượng bằng cách sử dụng phương pháp giám sát học máy nhưng bạn cần lưu trữ các yêu cầu sai chính tả của người dùng để làm điều đó không phải là một lựa chọn cho tôi.