Một số tệp PDF tạo ra rác (" mojibake ") khi bạn sao chép văn bản (mặc dù chúng hiển thị OK). Điều này khiến bạn không thể tìm kiếm chúng (bất cứ thứ gì bạn tìm kiếm sẽ không khớp với rác).
Có ai có một cách giải quyết dễ dàng?
Ví dụ:
- Hướng dẫn sử dụng TEAC TV EU2816STF (giải quyết các vấn đề trên trong Adobe Reader trên cả Windows và Mac, nhưng hoạt động tốt trong Bản xem trước trên máy Mac)
- Hướng dẫn sử dụng Leadtek Winfast PVR2 (liên kết FTP; cũng có vấn đề trong Xem trước trên máy Mac)
- Hướng dẫn sử dụng thẻ điều chỉnh Swann TV (liên kết FTP; cũng có vấn đề trong Xem trước trên máy Mac)
- Thỏa thuận cấp phép điện thoại (từ DTMS hiện không còn tồn tại )
- Macquarie IFP xem xét quỹ hàng quý
- Tập sách doanh nghiệp nhỏ BAN-TACS (phiên bản lưu trữ)
- Tờ rơi Easterfest 2004 (cũng từ kho lưu trữ)
Tôi đang sử dụng Adobe Reader (phiên bản mới nhất) cho Windows - có lẽ một trình xem thay thế có thể giúp ích? Tôi đang tìm kiếm một giải pháp miễn phí cho Windows. Nguồn mở sẽ còn tốt hơn nữa.
Chỉnh sửa: Các tài liệu cho công cụ Văn bản trích xuất đa trị liệu có một bản tóm tắt tốt về lý do tại sao mọi thứ có thể sai, bao gồm: (trích dẫn tài liệu sửa đổi lần cuối tháng 1 năm 2006)
- Văn bản có thể không có ánh xạ Unicode. Phông chữ PDF loại 3 thường không có, và TeX DVI có các ký tự không có tương đương Unicode.
- Mã hóa Unicode có thể có lỗi. Open Office ánh xạ một số ký tự vào cùng một Unicode, dẫn đến việc giảm chữ cái và nhân đôi.
Tôi đoán giải pháp cuối cùng trong những trường hợp này là OCR mỗi glyph trong một phông chữ để tìm ra nó thực sự là nhân vật nào. Lưu ý rằng điều này sẽ dễ dàng hơn OCRing một tài liệu được quét nhiễu vì hình dạng chính xác của glyph có sẵn (ở độ phân giải vô hạn vì đó là hình ảnh "vectơ").
clipbrd.exe
(xem mydigitallife.info/2008/11/06/õ ) bạn có thể thấy những gì trên bảng tạm. Điều đó mang lại cho bạn điều gì?