Tôi cần các tệp PDF để nhắn tin để tôi có thể tìm kiếm chúng hàng loạt từ dòng lệnh. Có một số trình chuyển đổi cho Ubuntu, OBSD hoặc bản phân phối tương tự không?
Có lẽ bài liên quan, OCR với ubfox ở đây .
pdftotext= pdfcat.
Tôi cần các tệp PDF để nhắn tin để tôi có thể tìm kiếm chúng hàng loạt từ dòng lệnh. Có một số trình chuyển đổi cho Ubuntu, OBSD hoặc bản phân phối tương tự không?
Có lẽ bài liên quan, OCR với ubfox ở đây .
pdftotext= pdfcat.
Câu trả lời:
Bạn có rất nhiều lựa chọn!
pdftotexttừ poppler đã được đề cập.
Có một chương trình Haskell được gọi làpdf2line hoạt động tốt.
ebook-convertchương trình dòng lệnh của calibre (hoặc chính cỡ nòng) là một lựa chọn khác; nó có thể chuyển đổi PDF thành văn bản thuần túy hoặc định dạng ebook khác (RTF, ePub), theo tôi, nó tạo ra kết quả tốt hơn pdftotext, mặc dù nó chậm hơn đáng kể.
ebook-convert file.pdf file.txt
AbiWord có thể chuyển đổi giữa bất kỳ định dạng nào mà nó biết từ dòng lệnh và ít nhất là tùy chọn có plugin nhập PDF:
abiword --to=txt file.pdf
Một tùy chọn khác là podofotextextracttừ thư viện công cụ podofo PDF. Tôi đã không thực sự thử điều đó.
Nếu bạn kết hợp hai công cụ Ghostscript pdf2psvà ps2ascii, bạn có một tùy chọn khác.
Tôi thực sự có thể nghĩ ra một vài phương pháp nữa, nhưng bây giờ tôi sẽ để nó. ;)
pdftotextcho kết quả chính xác hơn ebook-convertvà nó rất nhanh. ebook-convertlà chậm chạp.
pdftotextvới -layoutđá tùy chọn! calibreyêu cầu hơn 600mb để cài đặt! Thật điên rồ)
Bạn có thể chuyển đổi các tệp PDF thành văn bản trên dòng lệnh bằng pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilsgói).
Bạn có thể sử dụng Recoll
(Ubuntu: recoll ; OpenBSD: không có cổng, nhưng có một cái cho FreeBSD .) Để tìm kiếm bên trong các loại tài liệu văn bản được định dạng khác nhau, bao gồm PDF. Có GUI và nó tự động xây dựng một chỉ mục dưới mui xe. Nó sử dụng pdftotextđể chuyển đổi PDF thành văn bản.
Acrobat Reader (ít nhất là phiên bản 9 trong Linux) có khả năng tìm kiếm nhiều tệp hạn chế (bạn có thể tìm kiếm trong tất cả các tệp trong một thư mục).
pdftotext có khả năng là những gì bạn đang tìm kiếm: http://en.wikipedia.org/wiki/Pdftotext trừ khi văn bản bạn muốn trích xuất thực sự dưới dạng đồ họa, không phổ biến với các tài liệu pdf.
gPDFText chuyển đổi nội dung PDF ebook thành văn bản ASCII, được định dạng lại cho các đoạn văn dài, Nó hoạt động với tôi và nó có giao diện đồ họa.
gPDFTextcó thể lấy được, cách cài đặt và cách sử dụng để trả lời câu hỏi của OP.