Tránh các ký tự hai ký tự trong các tệp PDF


2

Lời giải thích giới thiệu

Một umlaut là một nguyên âm tiếng Đức, được thể hiện bằng văn bản như một chữ cái có hai dấu chấm ( diaeresis ) trên nguyên âm cơ bản. Ví dụ về các umlauts là ä, ö, ü và.

Ba chữ cái này có thể được biểu thị bằng văn bản dưới dạng một ký tự đơn - ví dụ: ü là Unicode U + 00FC - hoặc dưới dạng hai ký tự: nguyên âm cơ bản (ví dụ: u, U + 0075) và ký tự kết hợp (, U + 0308 ).

Cả hai nhân vật duy nhất có âm sắc và hai ký tự có âm sắc giống nhau trong một tài liệu PDF, nhưng mã cơ bản của họ là khác nhau. Hoạt hình này hiển thị văn bản được sao chép từ cùng một tệp PDF (!) Được mở trong Firefox (trên cùng) và Xem trước (dưới cùng) vào trình chỉnh sửa văn bản thuần túy (BBEdit) và sau đó xóa từng chữ cái:

nhập mô tả hình ảnh ở đây

Khi âm sắc được thể hiện như một nhân vật, và bạn tìm kiếm một từ tiếng Đức với một âm sắc , ví dụ như TUR "cửa", trong một văn bản, bạn sẽ tìm thấy lời rằng nếu nó là ở đó. Nếu mặt khác các âm sắc được thể hiện như hai nhân vật và bạn tìm kiếm TUR , bạn sẽ không tìm thấy nó:

Die Tür ist offen.  <= you will find "Tür" in this text
Die Tu¨r ist offen. <= you will not find "Tür" in this text

Câu hỏi

Trong Preview của Apple và Safari, mà còn trong phiên bản mới nhất của Adobe Acrobat Reader DC (18.011.20058), umlauts trong các tài liệu PDF được biểu diễn như hai nhân vật (nguyên âm cộng với dấu tách đôi), trong khi ở các tài liệu PDF cùng , khi tôi mở nó trong Firefox, Chrome hoặc phiên bản cũ hơn của Adobe Acrobat X Pro (10.1.16), chúng được thể hiện dưới dạng một ký tự.

Tại sao lại như vậy và làm cách nào tôi có thể tránh được các ký tự hai ký tự khi tôi tạo tài liệu PDF?


Xin chào Walter, chào mừng bạn đến hỏi khác nhau. Khi bạn viết "Nếu mặt khác, âm sắc được thể hiện dưới dạng hai ký tự và bạn tìm kiếm Tür, bạn sẽ không tìm thấy nó", bạn có nghĩa là trong ứng dụng (Bản xem trước, Adobe Reader, v.v.) hoặc với Spotlight hoặc với Thiết bị đầu cuối?
jaume

@jaume Trong ứng dụng. Tìm kiếm trong Spotlight hoạt động tốt (vì đó không phải là tệp PDF có các ký tự sai).
Walter T

Khi tôi gõ ü, nó chỉ là một ký tự. Nó phải là ứng dụng được sử dụng để viết bài kiểm tra ban đầu hoặc có thể tôi không hiểu vấn đề được nêu rõ. Điều này là hoàn toàn có thể. Umlauts được tạo bởi máy Mac của tôi dường như là một nhân vật trong các ví dụ tôi đã thử. Ghi chú, Textedit, Xem trước và Trang. Tôi thậm chí không biết làm thế nào để tạo ra các ô 2 ký tự. Hy vọng điều này sẽ giúp một chút.
jmh

@jmh Bạn có thể tạo hai ô ký tự (và hàng tấn nội dung tương tự) bằng cách sử dụng bàn phím mở rộng ABC để thêm dấu phụ kết hợp vào các chữ cái cơ sở.
Tom Gewecke

Xin chào Walter, phiên bản macOS chạy trên máy Mac của bạn? Bạn có thể tải tài liệu PDF đó lên OneDrive hoặc Dropbox và chia sẻ liên kết không? Tôi chưa thể tái tạo vấn đề bằng tài liệu PDF.
jaume

Câu trả lời:


3

Việc bạn kết thúc với 1 hoặc 2 ký tự tùy thuộc vào cách ứng dụng Chuẩn hóa Unicode được áp dụng bởi các ứng dụng và quy trình bạn đang sử dụng.

Tôi không biết có cách nào để đảm bảo cái này hay cái kia ngoại trừ có lẽ thông qua một tiện ích như UnicodeChecker .

Vì hai hình thức là tương đương nhau, một hệ thống tìm kiếm có thẩm quyền sẽ tìm thấy một trong hai hình thức đó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.