Tôi đang tìm kiếm một công cụ tập lệnh ngoại tuyến giúp tệp PDF hiện có có thể tìm kiếm được bằng cách chạy OCR trên nó, thay thế tệp không thể tìm kiếm ban đầu bằng phiên bản có thể tìm kiếm và có thể chạy không giám sát.
Ví dụ: www.pdfscannerapp.com - thực hiện chính xác những gì tôi cần, nhưng đó chỉ là GUI - không có kịch bản.
Tôi biết rằng Evernote làm cho các tệp PDF có thể tìm kiếm được, nhưng chúng chỉ có thể tìm kiếm được khi ở trong Evernote.
Tôi không tìm kiếm OCR hoàn hảo, thậm chí một OCR vừa phải chấp nhận được là tốt, nhưng tôi thích một tiện ích nhỏ hơn là gói phần mềm cồng kềnh.
(Tôi biết một câu hỏi tương tự nhưng khác nhau trên AD: Tìm kiếm phần mềm để quét hoặc chuyển đổi sang PDF có thể tìm kiếm và có thể ký - tuy nhiên, tôi không cần phải ký hoặc điền vào các tệp PDF và yêu cầu của tôi là giải pháp có thể được script)
CHỈNH SỬA:
1) Một số tiện ích cho phép trích xuất văn bản có cấu trúc, tuy nhiên để được trích xuất, văn bản phải ở đó; Tôi chủ yếu đề cập đến các tệp PDF được gói bitmap, như trường hợp với các tệp PDF đơn giản được tạo bởi các máy quét.
2) Tôi không nhất thiết phải tìm kiếm một giải pháp miễn phí và tôi sẽ rất vui khi trả tiền cho một tiện ích tốt, chỉ cần làm những gì tôi cần, nhưng tôi không tìm kiếm các ứng dụng cồng kềnh với một triệu tính năng bao gồm tính năng OCR nhưng có chi phí không biện minh cho việc mua chúng chỉ cho chức năng OCR.
3) Như đã nói ở trên, tôi không tìm kiếm OCR hoàn hảo, chỉ là một OCR vừa phải được chấp nhận. Thật không may, theo kinh nghiệm của tôi, tesseract thực sự nằm dưới ngưỡng đó. Tôi xác định "chấp nhận vừa phải" một OCR có thể, ví dụ, OCR một hóa đơn tiện ích để ít nhất số tài khoản (số khách hàng) được nhận dạng chính xác.
EDIT: "có thể tạo tập lệnh" hoặc "có thể tự động hóa", nghĩa là có thể được kích hoạt tự động và chạy không cần giám sát mà không cần đầu vào của con người.