Tôi có một số tài liệu được quét trong pdf và tôi muốn có thể tìm kiếm chúng. Làm thế nào tôi có thể làm điều đó?
Về cơ bản, tôi phải OCR pdf và sau đó trộn văn bản trích xuất lại thành pdf mới. Tôi đã vô tình thử một số giải pháp khác nhau (bao gồm cả những giải pháp được tìm thấy trong Thêm thông tin OCR vào PDF ).
- pdfoc (cung cấp cho tôi vấn đề này: https://github.com/gkovacs/pdfoc/issues/7 )
- pdfsandwich (trong đó trung tâm phần mềm nói rằng đó là một gói kém và tôi không nên cài đặt nó)
- OCRfeeder (trong trung tâm phần mềm) xuất sang odt độc đáo, nhưng không phản ứng khi xuất sang pdf.
- Gscan2pdf xuất một hình ảnh toàn màu đen (nhưng có thể tìm kiếm) như được báo cáo trong cuộc thảo luận này .
- Tôi không nghĩ rằng trình xem Pdfxchange có thể xử lý việc thực hiện ocr trên các tệp trên 500 trang.
Có một gói phần mềm tôi không biết? Hoặc một kịch bản làm điều này?
pdf2searchablepdf
. Nó dựa vào tesseract
. Nó hoạt động tốt. Siêu dễ sử dụng. Xem tại đây. Askubfox.com/a/1187881/327339