Đây là một cách, sẽ yêu cầu một số công cụ không phổ biến:
- ocrodjvu
- pdfbead , có yêu cầu riêng của Google mà Google có thể tìm thấy
Chúng ta có thể sử dụng djvu2hocr
lệnh (từ ocrodjvu
gói) để trích xuất lớp văn bản ẩn từ tệp DjVu (nó không thực hiện bất kỳ OCR nào hoặc tương tự, nó chỉ trích xuất lớp văn bản có hình học), tức là:
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
can thiệp sửa tên lớp trong hOCR đầu ra (chỉ là tệp HTML đơn giản)
Bây giờ chúng tôi trích xuất trang DjVu sang định dạng TIFF với:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
để chúng tôi kết thúc với các tệp này trong thư mục công việc:
sample.djvu
pg10.html
pg10.tif
Đây là nơi pdfbeads
đến trong trò chơi, và chúng tôi thực hiện đơn giản:
pdfbeads -o pg10.pdf
sau đó chương trình tiện lợi này sẽ xử lý tất cả mọi thứ trong thư mục này (tệp HTML và TIFF có cùng tên cơ sở) và tạo tệp PDF đầu ra với một số sản phẩm phụ:
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
trùng với tệp DjVu đầu vào và có lớp văn bản bên trong:
Tóm tắt ý kiến:
Các bình luận dài bên dưới thảo luận về việc thể hiện các hình ảnh nhỏ hơn từ trang tài liệu DjVu dưới dạng các đối tượng riêng biệt, điều này không dễ thực hiện vì trang tài liệu DjVu chỉ là một hình ảnh duy nhất với lớp văn bản tùy chọn, không có "thông tin" về các hình ảnh nhỏ hơn như các đối tượng riêng biệt. Nếu tài liệu DjVu có hình ảnh màu, thì chúng thường sẽ được đặt trên lớp nền; trong trường hợp này, người dùng có thể tận dụng các công cụ như ddjvu
(chỉ trích xuất lớp nền) và imagemagick
(tự động cắt) để chỉ xuất hình ảnh thay vì toàn bộ khung vẽ, nhưng không thể tự động tạo ra đầu ra PDF
Một cách tiếp cận khác, nhưng cách tiếp cận chậm hơn là sử dụng các công cụ GUI OCR thông thường. gscan2pdf
(> 1.0) được đề xuất là ứng cử viên có thể cho Linux PC