Có một số loại PDF để chuyển đổi văn bản?


21

Tôi cần các tệp PDF để nhắn tin để tôi có thể tìm kiếm chúng hàng loạt từ dòng lệnh. Có một số trình chuyển đổi cho Ubuntu, OBSD hoặc bản phân phối tương tự không?

Có lẽ bài liên quan, OCR với ubfox ở đây .



Nếu đó là một tệp PDF "thực" (được làm từ văn bản, v.v.) thì pdftotext là lựa chọn tốt nhất của bạn. Nếu đó là một hình ảnh, đặt cược tốt nhất của bạn là một số công cụ OCR.
vonbrand

1
Tôi luôn luôn sử dụng pdftotext= pdfcat.
đẳng cấu

Câu trả lời:


22

Bạn có rất nhiều lựa chọn!

pdftotexttừ poppler đã được đề cập.

một chương trình Haskell được gọi làpdf2line hoạt động tốt.

ebook-convertchương trình dòng lệnh của calibre (hoặc chính cỡ nòng) là một lựa chọn khác; nó có thể chuyển đổi PDF thành văn bản thuần túy hoặc định dạng ebook khác (RTF, ePub), theo tôi, nó tạo ra kết quả tốt hơn pdftotext, mặc dù nó chậm hơn đáng kể.

ebook-convert file.pdf file.txt

AbiWord có thể chuyển đổi giữa bất kỳ định dạng nào mà nó biết từ dòng lệnh và ít nhất là tùy chọn có plugin nhập PDF:

abiword --to=txt file.pdf

Một tùy chọn khác là podofotextextracttừ thư viện công cụ podofo PDF. Tôi đã không thực sự thử điều đó.

Nếu bạn kết hợp hai công cụ Ghostscript pdf2psps2ascii, bạn có một tùy chọn khác.

Tôi thực sự có thể nghĩ ra một vài phương pháp nữa, nhưng bây giờ tôi sẽ để nó. ;)


chuyển đổi ebook của calibre ... bạn đã thấy những gì nó làm với chữ ghép chưa? bleargh. hãy để nó theo cách này: nó không phải là một chương trình rất hiệu quả. pdftotext là trung thành hơn nhiều. tôi chưa bao giờ phát hiện ra bất kỳ lỗi nào trong đầu ra của nó.
ixtmixilix

1
Bạn có thể sử dụng ít hơn để xem các tập tin pdf dưới dạng văn bản. Nó gọi một bộ tiền xử lý, tức là lesspipe, để gọi pdftotext hoặc các công cụ tương tự.
Daniel Näslund

pdftotextcho kết quả chính xác hơn ebook-convertvà nó rất nhanh. ebook-convertlà chậm chạp.
Amit Patel

pdftotextvới -layoutđá tùy chọn! calibreyêu cầu hơn 600mb để cài đặt! Thật điên rồ)
Stalinko

9

Bạn có thể chuyển đổi các tệp PDF thành văn bản trên dòng lệnh bằng pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilsgói).

Bạn có thể sử dụng Recoll (Ubuntu: recoll ; OpenBSD: không có cổng, nhưng có một cái cho FreeBSD .) Để tìm kiếm bên trong các loại tài liệu văn bản được định dạng khác nhau, bao gồm PDF. Có GUI và nó tự động xây dựng một chỉ mục dưới mui xe. Nó sử dụng pdftotextđể chuyển đổi PDF thành văn bản.

Acrobat Reader (ít nhất là phiên bản 9 trong Linux) có khả năng tìm kiếm nhiều tệp hạn chế (bạn có thể tìm kiếm trong tất cả các tệp trong một thư mục).



-1

gPDFText chuyển đổi nội dung PDF ebook thành văn bản ASCII, được định dạng lại cho các đoạn văn dài, Nó hoạt động với tôi và nó có giao diện đồ họa.


3
Xin chào và chào mừng đến với trang web. Chúng tôi muốn câu trả lời là toàn diện hơn một chút ở đây. Ví dụ: bạn có thể thêm nơi gPDFTextcó thể lấy được, cách cài đặt và cách sử dụng để trả lời câu hỏi của OP.
terdon
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.