Trong Unicode, một số kết hợp ký tự có nhiều hơn một đại diện.
Ví dụ, ký tự ä có thể được biểu diễn dưới dạng
- "ä", đó là mật mã U + 00E4 (hai byte
c3 a4
trong mã hóa UTF-8) hoặc như - "ä", đó là hai điểm mã U + 0061 U + 0308 (ba byte
61 cc 88
trong UTF-8).
Theo tiêu chuẩn Unicode, hai biểu diễn là tương đương nhưng trong các "hình thức chuẩn hóa" khác nhau, xem UAX # 15: Biểu mẫu chuẩn hóa Unicode .
Hộp công cụ unix có tất cả các loại công cụ chuyển đổi văn bản, sed , tr , iconv , Perl đến với tâm trí. Làm cách nào tôi có thể thực hiện chuyển đổi NF nhanh chóng và dễ dàng trên dòng lệnh?
perl -MUnicode::Normalization -e 'print NFC(
er er những gì đến đây bây giờ là