Trích xuất các trang được đánh số chẵn và số lẻ của PDF thành hai tệp PDF riêng biệt

9

Tôi có một bản PDF bao gồm vài trăm trang văn bản song ngữ. Vì tôi cần sử dụng OCR riêng cho từng ngôn ngữ, tôi muốn lấy các trang chẵn và lẻ và tạo hai tệp PDF riêng biệt, bằng cách sử dụng converthoặc ghostscript. Ngôn ngữ tôi muốn làm đầu tiên là trên các trang có số lẻ. Tôi có thể sử dụng lệnh converthay ghostscriptlệnh gì để lấy chúng và ghi chúng vào một tệp mới?

pdf imagemagick ghostscript

— ixtmixilix
nguồn

Có một lý do tại sao bạn muốn sử dụng ImageMagick hoặc Ghostscript, trái ngược với các công cụ phù hợp hơn?

— Gilles 'SO- ngừng trở nên xấu xa'

@Gilles không. pdftk làm việc cho tôi. cảm ơn ...

— ixtmixilix

13

Tôi sẽ làm điều đó với pdftk .

pdftk A=all.pdf cat Aodd output odd.pdf
pdftk A=all.pdf cat Aeven output even.pdf

— Gilles 'SO- ngừng là ác'
nguồn

3

Thật không may, pdftk không còn là Nguồn mở nữa. (Đó là một câu chuyện dài.)

Động cơ Plain gs có thể làm điều đó, mặc dù:

  gs -sDEVICE=pdfwrite     \
     -sPageList=odd         \
     -sOutputFile=odd.pdf   \
     -dBATCH -dNOPAUSE      \
     file.pdf

Sau đó thay thế 'lẻ' bằng 'chẵn' để chọn các trang chẵn.

— Châm ngôn
nguồn

2

Với poppler-utilscác công cụ trước tiên bạn có thể trích xuất các trang đơn lẻ với pdfseparate:

pdfseparate infile.pdf piece-%d.pdf

thành các phần như piece-1.pdf, piece-2.pdf... piece-n.pdftrong đó ntổng số trang trong pdf gốc của bạn.

Sau đó, bạn có thể tham gia chúng với pdfunite(và hệ vỏ hỗ trợ sử dụng giá trị gia tăng với mở rộng phạm vi {<START>..<END>..<INCR>}:):

pdfunite piece-{1..n..2}.pdf odd.pdf
pdfunite piece-{2..n..2}.pdf even.pdf

Cuối cùng, loại bỏ các mảnh:

rm piece-{1..n}.pdf

— don_crissti
nguồn

0

Bạn có thể làm điều đó với pdftocairotừ Poppler:

pdftocairo -pdf -e input.pdf output.pdf

cho các trang lẻ và:

pdftocairo -pdf -o input.pdf output.pdf

cho các trang chẵn

!! Hãy nhớ rằng hiện tại (pdftocairo v. 0.80.0) có một lỗi: https://gitlab.freedesktop.org/poppler/poppler/issues/873 và các tùy chọn trang lẻ và chẵn được trộn lẫn. ))

— vstepaniuk
nguồn