Có một số cách tiếp cận sẽ hiệu quả hơn đối với một số ngôn ngữ so với các ngôn ngữ khác. Ví dụ, soundex (và một mô tả khác mà tôi thích ) được thiết kế cho cách phát âm tiếng Anh của tên. Với soundex, Michael
trở thành M240. Điều này có một số bước:
- Chữ cái đầu tiên bị cô lập. (
M
và ichael
)
- Tất cả các nguyên âm được loại bỏ khỏi phần còn lại (
M
và chl
)
- Phụ âm được thay thế
- Số không pad bên trái.
Các nhóm của chuyển đổi phụ âm được dựa trên sự tương đồng ngữ âm của họ - B
, F
, P
và V
tất cả các bản đồ để 1
.
Và có những biến thể về điều này theo thời gian . Nó đặc biệt hữu ích trong phả hệ trong đó cách đánh vần tên có thể thay đổi theo thời gian, nhưng cách phát âm vẫn tương tự.
Ngoài ra còn có các cách tiếp cận như xếp hạng trận đấu được các hãng hàng không phát triển cho các tên (chứ không phải là phả hệ của Mỹ).
Mã hóa của phương pháp xếp hạng đối sánh (MRA) là:
- Xóa tất cả các nguyên âm không dẫn đầu (
Michael
trở thành Mchl
và Anthony
trở thành Anthny
)
- Xóa hằng số thứ hai của bất kỳ nhân đôi nào
- Nếu chuỗi dài hơn 6 ký tự, hãy giảm chuỗi còn lại xuống còn 6 ký tự bằng cách lấy ba ký tự đầu tiên và ba ký tự cuối cùng.
Thông số kỹ thuật đầy đủ cho điều này có thể được tìm thấy trên archive.org - lưu ý rằng nó "không nhỏ" (mẫu in là 214 trang).
Các so sánh có ngưỡng phù hợp dựa trên thời gian văn bản dài.
Có các thuật toán ngữ âm khác nữa .
Vì vậy, những gì tôi muốn khuyến khích bạn làm là sử dụng soundex, sử dụng cách tiếp cận xếp hạng phù hợp hoặc sửa đổi soundex dựa trên phụ âm Rumani và phụ âm Ba Lan .
Hãy nhớ rằng với Soundex, các phụ âm được nhóm lại (Trong tiếng Ba Lan, m
, n
, ɲ
tất cả đều phụ âm mũi được nhóm, và bạn sẽ có khả năng nhóm plosives môi, răng, và phế nang - có thể họ không có tiếng nói hoặc bày tỏ với nhau - cấp, tôi không biết tiếng Ba Lan vì vậy đừng biết nếu tôi chỉ nói những điều không đúng ở đó).
Sau đó, chỉ cần chuyển đổi tất cả các tên trong cơ sở dữ liệu sang hai hệ thống soundex khác nhau và tìm ra tên nào có tập hợp va chạm thấp nhất trong các ngôn ngữ khác nhau. Điều này cung cấp cho bạn tên riêng biệt. Vì vậy, Smith
nó không hiển thị như Smyth
.
Tuy nhiên, điều này chỉ giải quyết được "tên có khả năng va chạm với các tên khác và bị nghe nhầm". Nó không giải quyết theo cách khác của "tên được nghe chính xác, viết sai" và vì thế, người ta nên tập trung sự chú ý của họ vào các tên phổ biến.
Ví dụ, Michael
là một cái tên rất phổ biến ở Mỹ từ đầu năm 1950 đến cuối năm 1970. Nó thực sự phổ biến . Tuy nhiên, vì một số lý do, cái tên Micheal
này khá phổ biến vào những năm 1950 (đã đạt đến cái tên phổ biến thứ 83 ở thời kỳ đỉnh cao). Và tôi chắc chắn rằng những người có tên Micheal
liên tục bị sai tên.
Vì vậy, bạn nên tập trung vào những cái tên có một tên chi phối sự phổ biến của tên cho một cách phát âm nhất định. Liếc nhìn một người tiêu dùng dữ liệu cho tên theo năm, bạn có thể thấy rằng tên bắt đầu bằng Jam ... cho một cậu bé là một mớ hỗn độn với Jamaal
, Jamal
, Jamar
và những người khác. Ngẫu nhiên, những cái tên này có soundexes hơi khác nhau cho Mỹ ( J540
, J540
và J560
- các l
và r
các nhóm khác nhau mặc dù họ có liên quan chặt chẽ trong ngữ âm). Tuy nhiên, đối với một người từ Nhật Bản, chỉ có một âm thanh trong khu vực ngữ âm l
vàr
được phát âm bằng tiếng Anh Mỹ. Điều này cũng có thể đặt ra một thách thức với các phụ âm hàng đầu sử dụng soundex mà người ta nên biết (tôi đã từng làm việc với một phụ nữ Nhật Bản tự gọi mình là Risa (với 'R') thay vì Lisa là La Mã hóa tên tiếng Nhật của cô ấy).
Bạn sẽ lưu ý rằng các ví dụ của tôi là dành cho Hoa Kỳ. Dữ liệu đó có thể dễ dàng truy cập. Rõ ràng có một số điều cho Ba Lan và Hungary , và chỉ gợi ý về tính phổ biến của tên Hungary ... Tôi nghi ngờ rằng việc tìm kiếm bằng một ngôn ngữ khác tiếng Anh có thể hữu ích ở đó.
Vì vậy, được đặt cho soundex cho một tên, một vài va chạm và chính tả thực sự nằm trong tập hợp các va chạm. Tốt hơn là, đây là một tên phổ biến. Nhìn vào danh sách này, đi cùng Krisztián
có thể sẽ bị lỗi chính tả trong khi, Zoltán
ít có khả năng như vậy (# 22 tên em bé phổ biến nhất trong năm 2011 ở Hungary!). Điều đó nói rằng, bạn không thể đi sai với Michael
.