Pdftotext của xpdf đang hoạt động tốt đối với tệp phông chữ nhúng thông thường, nhưng không thành công khi có phông chữ con được nhúng. Có cách giải quyết nào cho vấn đề này không?
Pdftotext của xpdf đang hoạt động tốt đối với tệp phông chữ nhúng thông thường, nhưng không thành công khi có phông chữ con được nhúng. Có cách giải quyết nào cho vấn đề này không?
Câu trả lời:
Vấn đề có lẽ là các ký tự được hiển thị bằng phông chữ con có mã hóa tùy chỉnh - biểu diễn số của các ký tự không tương ứng với ASCII, Latin-1 hoặc bất kỳ mã hóa phổ biến nào khác.
Xem
Điều này có nghĩa là không có cách giải quyết dễ dàng.
Trong tình huống này, tôi đã in các tệp PDF bằng máy in Adobe PDF thông qua độ phân giải cao (1200 dpi +), hình ảnh chất lượng cao (lên bất kỳ cài đặt nào bạn có thể). Sau đó, tôi OCR hình ảnh PDF để lại cho tôi một bản PDF có thể tìm kiếm và khả thi.
Khi tôi có nhiều tệp PDF để thực hiện trên hàng ngàn trang, tôi đã mở nhiều cửa sổ PDF cùng một lúc để thực hiện việc này đồng thời bằng nhiều lõi cho nhiều tệp PDF. Nó là một PITA, nhưng nó hoạt động.
Hy vọng các tập tin của bạn là nhỏ! Tôi đã thực hiện việc này lên tới 10.000 trang một lần (xây dựng sách mã). Không vui.