Cách chuyển đổi định dạng pdf sang sách điện tử


8

Có cách nào để chuyển đổi tài liệu PDF thành định dạng sách điện tử như epub, azw hoặc mobi không? Tôi đang tìm kiếm một ứng dụng, chuyển đổi nhanh. Tôi vừa thử tầm cỡ. Sau 10 phút, thậm chí không đạt được 2% chuyển đổi. Vì vậy, xin vui lòng không có tầm cỡ. CLI được ưa thích.

Câu trả lời:


6

Bạn nên thử pdftotext(đi kèm với Ubuntu trong gói poppler-utils). Nó là một công cụ chuyển đổi dòng lệnh. Nó giả định rằng PDF có văn bản và không chỉ bao gồm hình ảnh.

Nếu tệp PDF chứa hình ảnh (không có thông tin OCR), bạn phải tìm giải pháp OCR, tốc độ chậm hơn nhiều.

Tôi đã sử dụng thành công phương pháp OCR cũng như trên văn bản PDF được xáo trộn (bằng cách định vị các ký tự riêng lẻ trên một trang theo kiểu phi tuyến tính). Sau đó, bạn sử dụng ví dụ pdftoppmđể có được hình ảnh riêng lẻ của các trang và OCR.


6

Tôi thường sử dụng Calibre , để chuyển đổi từ các định dạng khác nhau (epub, mobi và pdf). Thật dễ dàng để chuyển đổi với nó, đây là một ảnh chụp màn hình, có những cái khác và một video hướng dẫn .

ảnh chụp màn hình

   ss tầm cỡ


3
Phần nào của "xin vui lòng không tầm cỡ" là không rõ ràng?
mlp

5
Khi trả lời các câu hỏi trên bất kỳ trang web SE nào, bạn đang phục vụ cả OP và bất kỳ ai tìm thấy chủ đề Hỏi & Đáp này trong tương lai. Câu trả lời này có nghĩa là bao gồm tất cả các cơ sở cho những cá nhân đó. Ngoài ra Calibre có thể là lựa chọn tốt nhất, có lẽ OP có phiên bản lỗi HOẶC nó bị định cấu hình sai. Tôi đã sử dụng nó hàng chục lần và nó thực hiện tốt công việc chuyển đổi.
slm

Tôi không thể chuyển đổi tập tin pfd thành epub trong một bố cục cố định. Bạn có thể vui lòng cho tôi biết các bước cần thực hiện để chuyển đổi pdf sang epub trong một bố cục cố định.
mohan diễn ra vào

1

Tôi đã phải làm điều này cho một tệp PDF một lần và đây là kết quả (sử dụng pdftohtml từ poppler):

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

Nạp zip vào Calibre và chuyển đổi sang EPUB. Lọc tất cả các thuộc tính CSS (như màu sắc, phông chữ).

Mỗi tệp PDF là khác nhau - không có giải pháp dứt khoát. Ở trên đã làm việc cho một trường hợp cụ thể - bạn phải làm yếu pdftohtml / pdftotext và sau đó điều chỉnh đầu ra để phù hợp với nhu cầu của bạn.

Nếu điều này không thành công và bạn phải dùng đến OCR, tôi đã gặp may mắn với chữ hình nêm. Nhưng cũng hãy thử tesseract, ocrad, goc. Tuy nhiên tất cả những người yêu cầu lao động thủ công cho một kết quả tốt.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.