Làm cách nào để trích xuất văn bản từ pdf trong script trên Linux?


23

Trên Linux - Làm cách nào để trích xuất văn bản từ một .pdfvăn bản thực sự là văn bản chứ không phải hình ảnh được quét? Tôi muốn một cái gì đó tôi có thể sử dụng trên dòng lệnh / trong một kịch bản, không tương tác. (Tôi không muốn chuyển đổi sang .tifvà sử dụng OCR - văn bản đã có sẵn trong .pdftệp, vậy tại sao lại giới thiệu không chính xác từ OCR không hoàn hảo?)


Câu trả lời:


25

pdftotext đi kèm với poppler sẽ cố gắng trích xuất bất kỳ văn bản nào được tìm thấy trong PDF.


1
Cảm ơn phản hồi nhanh chóng của bạn, Ignacio! Tôi đã kiểm tra pdftotext đi kèm w xpdf (từ đánh lừa.com) - câu trả lời của bạn đã nhắc tôi xem xét lại và tôi đã làm cho nó hoạt động. Poppler dường như đã phát triển từ xpdf, vì vậy tôi cũng sẽ xem xét điều đó. Cảm ơn một lần nữa!
RobM

9

Câu trả lời của Ignacio là tốt. Trên thực tế, đó là điều đầu tiên trong danh sách của tôi. Chà, điều đó và có lẽ là gợi ý pdftohtmlcông cụ đi kèm với poppler, kết hợp với pdfreflow nếu bạn muốn thử ghép lại văn bản thành đoạn văn, v.v. (Tất nhiên, điều này sẽ cung cấp cho bạn đầu ra HTML, nhưng chuyển đổi HTML sang văn bản thuần túy có thể được thực hiện theo nhiều cách.)

Dưới đây là một số tùy chọn khác.

Công ebook-convertcụ dòng lệnh từ Calibre , có thể chuyển đổi .PDF thành văn bản thuần túy (hoặc RTF hoặc một số định dạng ebook, như ePub, v.v.)

pdftxtextracttừ Podofo

Abiword có thể được gọi từ dòng lệnh để chuyển đổi giữa bất kỳ định dạng nào mà nó có thể nhập từ / xuất sang và với plugin nhập thích hợp, điều này bao gồm các tệp PDF:

abiword --to=txt file.pdf

(Công bằng mà nói, tôi nghĩ AbiWord và tầm cỡ đều sử dụng các thư viện poppler, nhưng tôi không tích cực.)


Cảm ơn frabjous! Trong trường hợp này, tôi chỉ trích xuất văn bản để tôi có thể quét các chuỗi cụ thể (tên nhà cung cấp, số tài khoản) và mẫu (số hóa đơn và ngày) - vì vậy không cần phải định dạng lại hoặc hiển thị lại. Tôi đánh giá cao sự ăn mòn và các lựa chọn thay thế - và tôi chắc chắn những người khác cũng sẽ như vậy! - Rob
RobM
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.