Tôi cần các tệp PDF để nhắn tin để tôi có thể tìm kiếm chúng hàng loạt từ dòng lệnh. Có một số trình chuyển đổi cho Ubuntu, OBSD hoặc bản phân phối tương tự không?
Có lẽ bài liên quan, OCR với ubfox ở đây .
pdftotext
= pdfcat
.
Tôi cần các tệp PDF để nhắn tin để tôi có thể tìm kiếm chúng hàng loạt từ dòng lệnh. Có một số trình chuyển đổi cho Ubuntu, OBSD hoặc bản phân phối tương tự không?
Có lẽ bài liên quan, OCR với ubfox ở đây .
pdftotext
= pdfcat
.
Câu trả lời:
Bạn có rất nhiều lựa chọn!
pdftotext
từ poppler đã được đề cập.
Có một chương trình Haskell được gọi làpdf2line
hoạt động tốt.
ebook-convert
chương trình dòng lệnh của calibre (hoặc chính cỡ nòng) là một lựa chọn khác; nó có thể chuyển đổi PDF thành văn bản thuần túy hoặc định dạng ebook khác (RTF, ePub), theo tôi, nó tạo ra kết quả tốt hơn pdftotext, mặc dù nó chậm hơn đáng kể.
ebook-convert file.pdf file.txt
AbiWord có thể chuyển đổi giữa bất kỳ định dạng nào mà nó biết từ dòng lệnh và ít nhất là tùy chọn có plugin nhập PDF:
abiword --to=txt file.pdf
Một tùy chọn khác là podofotextextract
từ thư viện công cụ podofo PDF. Tôi đã không thực sự thử điều đó.
Nếu bạn kết hợp hai công cụ Ghostscript pdf2ps
và ps2ascii
, bạn có một tùy chọn khác.
Tôi thực sự có thể nghĩ ra một vài phương pháp nữa, nhưng bây giờ tôi sẽ để nó. ;)
pdftotext
cho kết quả chính xác hơn ebook-convert
và nó rất nhanh. ebook-convert
là chậm chạp.
pdftotext
với -layout
đá tùy chọn! calibre
yêu cầu hơn 600mb để cài đặt! Thật điên rồ)
Bạn có thể chuyển đổi các tệp PDF thành văn bản trên dòng lệnh bằng pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utils
gói).
Bạn có thể sử dụng Recoll
(Ubuntu: recoll ; OpenBSD: không có cổng, nhưng có một cái cho FreeBSD .) Để tìm kiếm bên trong các loại tài liệu văn bản được định dạng khác nhau, bao gồm PDF. Có GUI và nó tự động xây dựng một chỉ mục dưới mui xe. Nó sử dụng pdftotext
để chuyển đổi PDF thành văn bản.
Acrobat Reader (ít nhất là phiên bản 9 trong Linux) có khả năng tìm kiếm nhiều tệp hạn chế (bạn có thể tìm kiếm trong tất cả các tệp trong một thư mục).
pdftotext có khả năng là những gì bạn đang tìm kiếm: http://en.wikipedia.org/wiki/Pdftotext trừ khi văn bản bạn muốn trích xuất thực sự dưới dạng đồ họa, không phổ biến với các tài liệu pdf.
gPDFText chuyển đổi nội dung PDF ebook thành văn bản ASCII, được định dạng lại cho các đoạn văn dài, Nó hoạt động với tôi và nó có giao diện đồ họa.
gPDFText
có thể lấy được, cách cài đặt và cách sử dụng để trả lời câu hỏi của OP.