Tôi vừa có thành công (dưới 16.04) với pdfnic.rb . Điều này được liệt kê trên Ubuntu wiki
Đây là một ppa nhưng kho lưu trữ cho 16.04 không được cập nhật. Kịch bản ruby ở trên từ github mặc dù vẫn hoạt động với 16.04.
Bạn có thể tải nó từ Github. Bạn sẽ cần các gói sau được cài đặt:
ruby tesseract-ocr pdftk exactimage
sau đó thực hiện pdfoc.rb thực thi và chạy:
./pdfocf.rb -i source.pdf -o output.pdf
Tùy chọn bạn có thể sử dụng -l LANG
tham số. Trong trường hợp đó, bạn sẽ cần cài đặt tesseract-ocr-LANG
gói, LANG
mã ngôn ngữ ISO 639-2 ở đâu. Ngay bây giờ bạn có 108 ngôn ngữ trên 16.04 repo.