Câu trả lời của Ignacio là tốt. Trên thực tế, đó là điều đầu tiên trong danh sách của tôi. Chà, điều đó và có lẽ là gợi ý pdftohtml
công cụ đi kèm với poppler, kết hợp với pdfreflow nếu bạn muốn thử ghép lại văn bản thành đoạn văn, v.v. (Tất nhiên, điều này sẽ cung cấp cho bạn đầu ra HTML, nhưng chuyển đổi HTML sang văn bản thuần túy có thể được thực hiện theo nhiều cách.)
Dưới đây là một số tùy chọn khác.
Công ebook-convert
cụ dòng lệnh từ Calibre , có thể chuyển đổi .PDF thành văn bản thuần túy (hoặc RTF hoặc một số định dạng ebook, như ePub, v.v.)
pdftxtextract
từ Podofo
Abiword có thể được gọi từ dòng lệnh để chuyển đổi giữa bất kỳ định dạng nào mà nó có thể nhập từ / xuất sang và với plugin nhập thích hợp, điều này bao gồm các tệp PDF:
abiword --to=txt file.pdf
(Công bằng mà nói, tôi nghĩ AbiWord và tầm cỡ đều sử dụng các thư viện poppler, nhưng tôi không tích cực.)