Tôi đã phải làm điều này cho một tệp PDF một lần và đây là kết quả (sử dụng pdftohtml từ poppler):
#!/bin/bash
pwddir="`pwd`"
tmpdir="`mktemp -d`"
pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index
cd "$tmpdir"
sed -e :a -e '$!N;s/\n/ /;ta' \
-i index.html
sed -e 's@ @ @g' \
-e 's@<hr>@ @g' \
-e 's@<br/>\s*<br/>@</p><p>@g' \
-e 's@<br/>@ @g' \
-i index.html
tidy -utf8 -i -wrap 9999999 -m index.html
sed -e 's@<a name="[^"]*"></a>@@g' \
-i index.html
rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *
Nạp zip vào Calibre và chuyển đổi sang EPUB. Lọc tất cả các thuộc tính CSS (như màu sắc, phông chữ).
Mỗi tệp PDF là khác nhau - không có giải pháp dứt khoát. Ở trên đã làm việc cho một trường hợp cụ thể - bạn phải làm yếu pdftohtml / pdftotext và sau đó điều chỉnh đầu ra để phù hợp với nhu cầu của bạn.
Nếu điều này không thành công và bạn phải dùng đến OCR, tôi đã gặp may mắn với chữ hình nêm. Nhưng cũng hãy thử tesseract, ocrad, goc. Tuy nhiên tất cả những người yêu cầu lao động thủ công cho một kết quả tốt.