Lời giải thích giới thiệu
Một umlaut là một nguyên âm tiếng Đức, được thể hiện bằng văn bản như một chữ cái có hai dấu chấm ( diaeresis ) trên nguyên âm cơ bản. Ví dụ về các umlauts là ä, ö, ü và.
Ba chữ cái này có thể được biểu thị bằng văn bản dưới dạng một ký tự đơn - ví dụ: ü là Unicode U + 00FC - hoặc dưới dạng hai ký tự: nguyên âm cơ bản (ví dụ: u, U + 0075) và ký tự kết hợp (, U + 0308 ).
Cả hai nhân vật duy nhất có âm sắc và hai ký tự có âm sắc giống nhau trong một tài liệu PDF, nhưng mã cơ bản của họ là khác nhau. Hoạt hình này hiển thị văn bản được sao chép từ cùng một tệp PDF (!) Được mở trong Firefox (trên cùng) và Xem trước (dưới cùng) vào trình chỉnh sửa văn bản thuần túy (BBEdit) và sau đó xóa từng chữ cái:
Khi âm sắc được thể hiện như một nhân vật, và bạn tìm kiếm một từ tiếng Đức với một âm sắc , ví dụ như TUR "cửa", trong một văn bản, bạn sẽ tìm thấy lời rằng nếu nó là ở đó. Nếu mặt khác các âm sắc được thể hiện như hai nhân vật và bạn tìm kiếm TUR , bạn sẽ không tìm thấy nó:
Die Tür ist offen. <= you will find "Tür" in this text
Die Tu¨r ist offen. <= you will not find "Tür" in this text
Câu hỏi
Trong Preview của Apple và Safari, mà còn trong phiên bản mới nhất của Adobe Acrobat Reader DC (18.011.20058), umlauts trong các tài liệu PDF được biểu diễn như hai nhân vật (nguyên âm cộng với dấu tách đôi), trong khi ở các tài liệu PDF cùng , khi tôi mở nó trong Firefox, Chrome hoặc phiên bản cũ hơn của Adobe Acrobat X Pro (10.1.16), chúng được thể hiện dưới dạng một ký tự.
Tại sao lại như vậy và làm cách nào tôi có thể tránh được các ký tự hai ký tự khi tôi tạo tài liệu PDF?