Tôi có một tệp trong UTF-8 chứa các văn bản bằng nhiều ngôn ngữ. Rất nhiều trong số đó là tên của mọi người. Tôi cần chuyển đổi nó sang ASCII và tôi cần kết quả để có vẻ tốt nhất có thể.
Có nhiều cách để tiếp cận chuyển đổi từ mã hóa rộng hơn sang hẹp hơn. Việc chuyển đổi đơn giản nhất sẽ là thay thế tất cả các ký tự không phải ASCII bằng một số trình giữ chỗ, như '_'. Nếu tôi biết ngôn ngữ mà tập tin được viết, có những khả năng bổ sung, như tiếng La-tinh.
Công cụ Unix hoặc thư viện ngôn ngữ lập trình nào có sẵn trên Unix có thể mang lại cho tôi một sự chuyển đổi (nỗ lực tốt nhất) từ UTF-8 sang ASCII?
Hầu hết các văn bản là ở châu Âu, ngôn ngữ dựa trên tiếng Latin.
iconv
và tr
, có Unidecode . Tôi không quen thuộc với nó, nhưng nó có thể làm những gì bạn muốn, nếu bạn có thể sử dụng Python.