Trích xuất các trang được đánh số chẵn và số lẻ của PDF thành hai tệp PDF riêng biệt


9

Tôi có một bản PDF bao gồm vài trăm trang văn bản song ngữ. Vì tôi cần sử dụng OCR riêng cho từng ngôn ngữ, tôi muốn lấy các trang chẵn và lẻ và tạo hai tệp PDF riêng biệt, bằng cách sử dụng converthoặc ghostscript. Ngôn ngữ tôi muốn làm đầu tiên là trên các trang có số lẻ. Tôi có thể sử dụng lệnh converthay ghostscriptlệnh gì để lấy chúng và ghi chúng vào một tệp mới?


Có một lý do tại sao bạn muốn sử dụng ImageMagick hoặc Ghostscript, trái ngược với các công cụ phù hợp hơn?
Gilles 'SO- ngừng trở nên xấu xa'

@Gilles không. pdftk làm việc cho tôi. cảm ơn ...
ixtmixilix

Câu trả lời:



3

Thật không may, pdftk không còn là Nguồn mở nữa. (Đó là một câu chuyện dài.)

Động cơ Plain gs có thể làm điều đó, mặc dù:

  gs -sDEVICE=pdfwrite     \
     -sPageList=odd         \
     -sOutputFile=odd.pdf   \
     -dBATCH -dNOPAUSE      \
     file.pdf 

Sau đó thay thế 'lẻ' bằng 'chẵn' để chọn các trang chẵn.


2

Với poppler-utilscác công cụ trước tiên bạn có thể trích xuất các trang đơn lẻ với pdfseparate:

pdfseparate infile.pdf piece-%d.pdf

thành các phần như piece-1.pdf, piece-2.pdf... piece-n.pdftrong đó ntổng số trang trong pdf gốc của bạn.

Sau đó, bạn có thể tham gia chúng với pdfunite(và hệ vỏ hỗ trợ sử dụng giá trị gia tăng với mở rộng phạm vi {<START>..<END>..<INCR>}:):

pdfunite piece-{1..n..2}.pdf odd.pdf
pdfunite piece-{2..n..2}.pdf even.pdf

Cuối cùng, loại bỏ các mảnh:

rm piece-{1..n}.pdf

0

Bạn có thể làm điều đó với pdftocairotừ Poppler:

pdftocairo -pdf -e input.pdf output.pdf

cho các trang lẻ và:

pdftocairo -pdf -o input.pdf output.pdf

cho các trang chẵn

!! Hãy nhớ rằng hiện tại (pdftocairo v. 0.80.0) có một lỗi: https://gitlab.freedesktop.org/poppler/poppler/issues/873 và các tùy chọn trang lẻ và chẵn được trộn lẫn. ))

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.