Nhưng làm thế nào là điều này có thể?
Về cơ bản, một chương trình thực hiện OCR trên tệp đầu vào và sau đó nó đặt một lớp văn bản vô hình lên trên hình ảnh. Ngoài ra, nó cũng có thể đặt một lớp văn bản có thể nhìn thấy dưới hình ảnh, cho hiệu ứng tương tự.
Khi bạn chọn một cái gì đó, hình ảnh không thành vấn đề vì lớp văn bản được chọn.
Làm thế nào điều này có thể được tạo ra?
Có một số cách. Vì Acrobat đã được đề xuất, tôi sẽ thêm một số tùy chọn miễn phí (và may mắn là bạn không bị buộc phải có Windows để sử dụng chúng).
Trình xem PDF-XChange
Đây là một chương trình Windows gốc của Phần mềm theo dõi . Phiên bản phần mềm miễn phí chạy tốt trong Wine nếu bạn sử dụng phiên bản 32 bit trong tiền tố 32 bit, do đó bạn có thể sử dụng nó trên Windows, macOS và Linux. Trong hai trường hợp cuối cùng, bạn sẽ cần PlayOnMac hoặc PlayOnLinux tương ứng.
Đây là hình ảnh từ câu trả lời này tôi để lại trên Hỏi Ubuntu:
Tháng Mười
Đây là một chương trình đa nền tảng được viết bằng Python , dựa trên Ghostscript, Tesseract và Unapers. Từ các tài liệu:
OCRmyPDF làm gì
OCRmyPDF phân tích từng trang của PDF để xác định không gian màu và độ phân giải (DPI) cần thiết để nắm bắt tất cả thông tin trên trang đó mà không làm mất nội dung. Nó sử dụng Ghostscript để rasterize trang, và sau đó thực hiện trên OCR trên hình ảnh rasterized để tạo ra một lớp OCR. Lớp này sau đó được ghép lại vào bản PDF gốc.
Nó có thể dễ dàng cài đặt trên các dẫn xuất Debian và Ubuntu:
apt-get install ocrmypdf
Hoặc trên macOS:
brew tap jbarlow83/ocrmypdf
brew install ocrmypdf
Trên Windows, bạn sẽ cần sử dụng hình ảnh Docker. Xem các tài liệu chính thức để biết chi tiết.
Cách sử dụng rất đơn giản và tôi khuyên bạn nên sử dụng các tham số tùy chọn -d
(deskew) và -c
(sạch) để có kết quả tốt hơn. Nó sẽ làm thẳng mọi trang và dọn sạch các chấm / khiếm khuyết nhỏ trước khi chạy quy trình OCR.
Bạn có thể (và nên) cung cấp ngôn ngữ với -l
.
Dưới đây là một ví dụ được lấy từ tài liệu sai lệch này được viết bằng tiếng Ý:
Lệnh tôi đã sử dụng là:
ocrmypdf -l ita -d -c input.pdf output.pdf
Công cụ trực tuyến
Có một vài công cụ trực tuyến cũng làm như vậy. Đáng chú ý, PDF24 lưu trữ phiên bản OCRmyPDF dựa trên web miễn phí có thể được sử dụng mà không bị giới hạn.
Xem thêm: