OCR trên các tệp PDF trong OS X với các công cụ nguồn mở, miễn phí

16

Sau khi đọc những bài viết trên blog này:

và đi qua đoạn trích dưới đây (từ ý chính này ) cho Linux, tôi nghĩ rằng tôi đã tìm thấy một phương pháp để OCR một tệp PDF nhiều trang và nhận được một tệp PDF trong đầu ra cũng có thể hoạt động trong OS X. Hầu hết các phụ thuộc đều có sẵn trong homebrew ( brew install tesseractvà brew install imagemagick), ngoại trừ một , hocr2pdf.

Tôi chưa thể tìm thấy cổng của nó cho OS X. Có cổng nào không? Nếu không, làm thế nào một OCR một tệp PDF nhiều trang và lấy lại kết quả trong một tệp PDF nhiều trang trong OS X, bằng cách sử dụng các công cụ nguồn mở, miễn phí?

#!/bin/bash

# This is a script to transform a PDF containing a scanned book into a searchable PDF.
# Based on previous script and many good tips by Konrad Voelkel:
# http://blog.konradvoelkel.de/2010/01/linux-ocr-and-pdf-problem-solved/
# http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/
# Depends on convert (ImageMagick), pdftk and hocr2pdf (ExactImage).
# $ sudo apt-get install imagemagick pdftk exactimage
# You also need at least one OCR software which can be either tesseract or cuneiform.
# $ sudo apt-get install tesseract-ocr
# $ sudo apt-get install cuneiform
# To install languages into tesseract do (e.g. for Portuguese):
# $ sudo apt-get install tesseract-ocr-por

echo "usage: ./pdfocr.sh document.pdf ocr-sfw split lang author title"
# where ocr-sfw is either tesseract or cuneiform
# split is either 0 (already single-paged) or 1 (2 book-pages per pdf-page)
# lang is a language as in "tesseract --list-langs" or "cuneiform -l".
# and author, title are used for the PDF metadata.
#
# usage example:
# ./pdfocr.sh SomeFile.pdf tesseract 1 por "Some Author" "Some Title"
pdftk "$1" burst dont_ask
for f in pg_*.pdf
do
if [ "1" == "$3" ]; then
convert -normalize -density 300 -depth 8 -crop 50%x100% +repage $f "$f.png"
else
convert -normalize -density 300 -depth 8 $f "$f.png"
fi
done
rm pg_*.pdf

for f in pg_*.png
do
if [ "tesseract" == "$2" ]; then
tesseract -l $4 -psm 1 $f $f hocr
elif [ "cuneiform" == "$2" ]; then
cuneiform -l $4 -f hocr -o "$f.html" $f
else
echo "$2 is not a valid OCR software."
fi
hocr2pdf -i $f -r 300 -s -o "$f.pdf" < "$f.html"
done

pdftk pg_*.pdf cat output merged.pdf

pdftk merged.pdf update_info_utf8 doc_data.txt output merged+data.pdf
echo "InfoBegin" > in.info
echo "InfoKey: Author" >> in.info
echo "InfoValue: $5" >> in.info
echo "InfoBegin" >> in.info
echo "InfoKey: Title" >> in.info
echo "InfoValue: $6" >> in.info
echo "InfoBegin" >> in.info
echo "InfoKey: Creator" >> in.info
echo "InfoValue: PDF OCR scan script" >> in.info
in_filename="${1%.*}"
pdftk merged+data.pdf update_info_utf8 in.info output "$in_filename-ocr.pdf"

rm -r doc_data.txt in.info merged* pg_*

— Josh
nguồn

13

Tesseract 3.03+ đã tích hợp hỗ trợ cho đầu ra PDF. Mà yêu cầu leptonica được cài đặt. Bạn có thể sử dụng: brew install tesseract --HEADđể có được phiên bản mới nhất của tesseract. Bạn cũng sẽ cần cài đặt ghostscript nhưng không cần hoc2pdf.

Kịch bản sau đây sử dụng ghostscript để chia PDF thành JPEG, tesseract để OCR các JPEG và xuất các trang PDF đơn, và cuối cùng là ghostscript một lần nữa để kết hợp các trang lại thành một PDF.

#!/bin/sh

y="`pwd`/$1"
echo Will create a searchable PDF for $y

x=`basename "$y"`
name=${x%.*}

mkdir "$name"
cd "$name"

# splitting to individual pages
gs -dSAFER -dBATCH -dNOPAUSE -sDEVICE=jpeg -r300 -dTextAlphaBits=4 -o out_%04d.jpg -f "$y"

# process each page
for f in $( ls *.jpg ); do
  # extract text
  tesseract -l eng -psm 3 $f ${f%.*} pdf
  rm $f
done

# combine all pages back to a single file
gs -dCompatibilityLevel=1.4 -dNOPAUSE -dQUIET -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -sOutputFile="../${name}_searchable.pdf" *.pdf

cd ..
rm -rf "${name}"

# Adapted from: http://www.morethantechnical.com/2013/11/21/creating-a-searchable-pdf-with-opensource-tools-ghostscript-hocr2pdf-and-tesseract-ocr/
# from http://www.ehow.com/how_6874571_merge-pdf-files-ghostscript.html
# bash tut: http://linuxconfig.org/bash-scripting-tutorial
# Linux PDF,OCR: http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/

— Courtney Pattison
nguồn

Trong Tesseract 4, điều này cần phải được tesseract $f ${f%.*} -l eng --psm 3 pdf.

— Robin Dinse

1

Tôi sử dụng tesseracttrên os x quá. Đã viết về tự động hóa nó ngắn gọn ở đây .

— Tuấn Anh Trần
nguồn

5

Mặc dù liên kết này có thể trả lời câu hỏi, tốt hơn là bao gồm các phần thiết yếu của câu trả lời ở đây và cung cấp liên kết để tham khảo. Câu trả lời chỉ liên kết có thể trở nên không hợp lệ nếu trang được liên kết thay đổi. Vui lòng xem tại đây: apple.stackexchange.com/help/delatted-answers

— bummi