Trình chuyển đổi PDF sang văn bản [đã đóng]


9

Tôi đang tìm kiếm một cách "một lần nhấp" để lấy BẤT K PDF PDF nào và chuyển đổi nó thành văn bản thuần túy. Lý tưởng nhất trên OSX hoặc Linux.

Lý tưởng nhất, giải pháp sẽ bao gồm chức năng OCR, nhưng nó không nhất thiết phải như vậy.

Ưu tiên hàng đầu là có một cái gì đó có thể lấy bất kỳ tập tin nào mà KHÔNG CÓ cấu hình.

Câu trả lời:


23

xpdf bao gồm pdftotextnhị phân.

Pdftotext chuyển đổi các tệp Định dạng Tài liệu Di động (PDF) thành văn bản thuần túy.

Trên Linux có sẵn trình cài đặt. Có vẻ như nó cũng đi kèm trong poppler-utilsgói. Trên OS X, bạn có thể cài đặt nó bằng Homebrew (cài đặt trước) và sau đó sử dụng

brew install homebrew/x11/xpdf

sẽ tải xuống các tệp nguồn và biên dịch nó cho OS X. Sau đó, chỉ cần sử dụng nó như sau:

pdftotext your_pdf_file.pdf

sẽ tạo ra một tệp văn bản đơn giản. Có một vài lựa chọn là tốt, hãy kiểm tra man pdftotextđể biết thêm chi tiết.

Một thay thế là poppler , trong OSX:

brew install poppler

trong Debian và bạn bè

apt-get install poppler-utils

kể từ hôm nay, lệnh làbrew install homebrew/x11/xpdf
Diego Vieira

1
@DiegoVieira Cảm ơn. Lần sau hãy đề nghị chỉnh sửa!
slhck

Một số lợi thế khi sử dụng poppler thay vì xpdf / pdftotext?
Gonzalo Bahamondez

brew install Caskroom/cask/pdftotext
Hugo

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.