Làm thế nào để ít hiển thị các tệp PDF?


52

Tôi đã thử một số chương trình: pdftotext, pdf2txt.py, ... Tất cả chúng đều có thể trích xuất văn bản từ các tệp PDF, nhưng chương trình nào hoạt động tốt hơn là tốt ' less: văn bản từ PDF có bố cục phù hợp. Làm thế nào là ít làm điều này? Là nó sử dụng bất kỳ thư viện, hoặc xử lý PDF được tích hợp?

Tôi đang hỏi bởi vì tôi muốn sử dụng chức năng này theo chương trình, không nhất thiết phải chạy ít hơn như một chương trình bên ngoài (tôi đang làm python).

Hệ thống của tôi là:

» less --version
less 458 (GNU regular expressions)
Copyright (C) 1984-2012 Mark Nudelman

less comes with NO WARRANTY, to the extent permitted by law.
For information about the terms of redistribution,
see the file named README in the less distribution.
Homepage: http://www.greenwoodsoftware.com/less

» uname -a
Linux polyphemus 3.13.0-53-generic #89-Ubuntu SMP Wed May 20 10:34:39 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

Câu trả lời:


63

Phân phối của bạn có thể đang sử dụng lesspipe.shtập lệnh phổ biến . Kiểm tra LESSOPENbiến môi trường.

Kịch bản này tồn tại trong nhiều biến thể. Tôi đang xem phiên bản Gentoo. Trong đó, bạn sẽ tìm thấy dòng sau:

*.ps|*.pdf) ps2ascii "$1" || pstotext "$1" || pdftotext "$1" ;;

Điều đó có nghĩa là nó sẽ thử các lệnh đó theo thứ tự được hiển thị. $1là tên tập tin.

Một phiên bản khác sử dụng lệnh sau:

pdftohtml -stdout "$t" | parsehtml -

15
Cảm ơn, hóa ra nó đang sử dụngpdftotext -layout $1 -
dangonfast

@ jeckyll2 leather Bạn có tìm thấy lời giải thích cho kết quả tốt hơn với ít hơn không?
vvy

@vvy Có lẽ là -layoutcông tắc. ;)
Daniel B
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.