Làm thế nào để trích xuất văn bản từ pdf với phông chữ con

1

Pdftotext của xpdf đang hoạt động tốt đối với tệp phông chữ nhúng thông thường, nhưng không thành công khi có phông chữ con được nhúng. Có cách giải quyết nào cho vấn đề này không?

pdf embedded-fonts xpdf

— Nishanth Lawrence
nguồn

0

Vấn đề có lẽ là các ký tự được hiển thị bằng phông chữ con có mã hóa tùy chỉnh - biểu diễn số của các ký tự không tương ứng với ASCII, Latin-1 hoặc bất kỳ mã hóa phổ biến nào khác.

Xem

Điều này có nghĩa là không có cách giải quyết dễ dàng.

— RedGrittyBrick
nguồn

0

Trong tình huống này, tôi đã in các tệp PDF bằng máy in Adobe PDF thông qua độ phân giải cao (1200 dpi +), hình ảnh chất lượng cao (lên bất kỳ cài đặt nào bạn có thể). Sau đó, tôi OCR hình ảnh PDF để lại cho tôi một bản PDF có thể tìm kiếm và khả thi.

Khi tôi có nhiều tệp PDF để thực hiện trên hàng ngàn trang, tôi đã mở nhiều cửa sổ PDF cùng một lúc để thực hiện việc này đồng thời bằng nhiều lõi cho nhiều tệp PDF. Nó là một PITA, nhưng nó hoạt động.

Hy vọng các tập tin của bạn là nhỏ! Tôi đã thực hiện việc này lên tới 10.000 trang một lần (xây dựng sách mã). Không vui.

— Damon
nguồn

Cảm ơn câu trả lời. Nhưng làm thế nào mà người xem pdf có thể giải thích chính xác?

— Nishanth Lawrence

Có lẽ vì mã hóa được nhúng trong PDF chứ không phải chương trình.

— Damon