Nếu bạn quét một trang có văn bản thành PDF và chạy ứng dụng OCR trên đó, thì văn bản sẽ được thêm vào trang, nhưng "chế độ hiển thị văn bản" được đặt thành ẩn. Nó ở đó, nhưng nó không được hiển thị trên màn hình (hoặc trên giấy nếu được in). Những gì bạn nhìn thấy hoặc in là hình ảnh quét ban đầu.
Làm thế nào chúng ta có thể làm cho văn bản vô hình có thể nhìn thấy?
Chà, chúng ta có thể chỉnh sửa PDF ... Mã PDF để đặt hiển thị văn bản thành vô hình là đây:
3 Tr
Bạn không thể tìm thấy chuỗi này (chưa) trong bản gốc from_abbyy.pdf cũng như trong from_ghostscript.pdf vì các phần của tệp PDF được nén. Vì vậy, chúng tôi giải nén chúng càng nhiều càng tốt với sự giúp đỡ của qpdf
:
qpdf \
--qdf \
from_abbyy.pdf \
qdf--from_abbyy.pdf
qpdf \
--qdf \
after_ghostscript.pdf \
qdf--after_ghostscript.pdf
Bây giờ chúng ta có thể tìm thấy chuỗi trên một cách dễ dàng (và chỉ có một lần xuất hiện trong mỗi tệp).
Chúng ta hãy chuyển nó sang một trong các chế độ hiển thị văn bản. Nhìn chung, chúng ta có thể chọn trong số 8 chế độ hiển thị văn bản này:
0 - fill glyph shapes
1 - stroke glyph shapes
2 - fill, then stroke glyph shapes
3 - neither fill nor stroke glyph shapes (invisible)
4 - fill and add to path for clipping glyph shapes
5 - stroke glyph shapes and add to path for clipping
6 - fill, then stroke glyph shapes and add path for clipping
7 - add glyph shapes to path for clipping
Nếu tôi sử dụng chế độ "điền", văn bản từ OCR có thể sẽ trông không được tốt cho lắm trên hình ảnh quét bên dưới. Vì vậy, tôi thích các biến thể "đột quỵ". Vì vậy, tôi chỉ cần thay đổi dòng trên để đọc
1 Tr
Nhìn vào bản PDF đã sửa đổi này, tôi không thích nó, vì băng thông mặc định quá dày so với sở thích của tôi. Ngoài ra, màu của nét phác thảo là màu đen (mặc định); Tôi thích màu đỏ hơn để có độ tương phản với hình dạng được quét ban đầu. Do đó, tôi thêm một số mã vào phía trước của dòng này để đặt băng thông thành một phần tư điểm:
.25 w
và một số khác để đặt màu Stroke thành màu đỏ:
1 0 0 RG
Dòng hoàn chỉnh bây giờ là:
.25 w 1 0 0 RG 1 Tr
Đó là tất cả.
Lưu ý rằng thao tác nhỏ của chúng tôi đã làm hỏng tệp, vì "TOC" (theo thuật ngữ kỹ thuật: xref
bảng của nó ) sẽ không còn hiệu lực. Acrobat Reader hoặc Acrobat Professional vẫn sẽ mở nó (thậm chí không phàn nàn) và âm thầm "sửa chữa" phần xref của tệp. Những người xem PDF khác có thể từ chối tệp, nhưng hiện tại chúng tôi không quan tâm ...
Dưới đây là ảnh chụp màn hình của kết quả:
(Ảnh chụp màn hình đầu tiên được phóng to theo chiều rộng cửa sổ.)
(Ảnh chụp màn hình thứ hai được phóng to lên 800%.)
Các đường viền màu đỏ là văn bản được quét hiện rõ, giống như chúng ta muốn.
Tôi đã tiến hành quy trình tương tự như đã nêu ở trên cho cả hai tệp from_abbyy.pdf và after_ghostscript.pdf . Tôi đã mở cả hai kết quả trong 2 trường hợp khác nhau của Acrobat Reader. Nếu chúng ta làm cho cả hai thu phóng đến cùng một giá trị và tối đa hóa cả hai cửa sổ, thì có thể dễ dàng chuyển đổi chế độ xem giữa cả hai tệp qua [alt]+[tab]
. Đây là một cách tốt để tiết lộ ngay cả sự khác biệt kết xuất tốt nhất giữa hai tệp PDF.
Kết quả của tôi là: thậm chí không có một pixel nào khác nhau giữa đầu vào của Ghostscript (v9.02) và đầu ra của nó cho tệp này. Nhưng có một sự khác biệt nếu bạn muốn sao chép văn bản ...