Là một fan hâm mộ của nguồn mở (và tự động hóa), tôi ghét phải nói điều này, nhưng kết quả tốt nhất tôi vừa có (trên một tệp PDF khá lớn, phức tạp) là mở nó trong Adobe Reader, sau đó chọn File | Save As Text.
(Tôi đang xử lý trước cho các thử nghiệm phân tích văn bản, không phải là người đọc, nhưng tôi nghĩ rằng lựa chọn đầu tiên và thứ hai của tôi sẽ giống nhau.)
Tôi đã so sánh đầu ra cạnh nhau. Lựa chọn thứ hai của tôi là chuyển đổi ebook.
Adobe : còn lại trong FF để ngắt trang, còn lại trong số trang, chưa chuyển tiêu đề / đoạn thành dòng đơn, nhưng nó có dấu gạch nối cố định. Rác bị ẩn trong PDF không nhận được đầu ra. Chính xác có các chữ viết hoa lớn khi bắt đầu các phần, ví dụ "The", không phải "T he" hay thậm chí "T he".
ebook-convert : Còn lại trong số trang và một số rác ẩn trong đầu trang / chân trang (nhưng không có FF). Chuyển đổi hầu hết các đoạn thành dòng đơn. Những cái nó bỏ lỡ mặc dù cách đôi! Đạn không phải luôn luôn phù hợp với văn bản. Chính xác có "The" ở đầu chương.
pdftotext (không có --layout) : Không tệ, đạn xếp hàng, nhưng tiếng ồn của tiêu đề / chân trang. FF đang ở đó. Hyphens loại bỏ. Tệ nhất khi bắt đầu chương lớn chữ: "T \ n \ nhe".
pdftotext (với --layout) : Tương tự, nhưng nhiều vết lõm hơn. "T he" để bắt đầu chương.
pdftohtml >> pdfreflow >> htmltotext : Nó đã xóa số trang, nhưng vẫn còn rác trong tiêu đề / chân trang. "T he" để bắt đầu chương. Hyphens loại bỏ. (Nó sử dụng nhiều dòng trên mỗi đoạn, nhưng chúng không phải là ngắt dòng giống như trong các phiên bản khác!)