Có công cụ nào để tự động hóa OCR của các tệp PDF được quét theo cách tương tự như tính năng OCR của Acrobat không? [đóng cửa]


10

Nguồn mở ưa thích, nhưng không cần thiết.

Tôi đã có Adobe Acrobat 8 ​​và thực sự thích tính năng OCR, về cơ bản có thể đặt một lớp văn bản OCR'd vô hình lên trên một tài liệu được quét. Do đó, những gì bạn nhìn thấy trên màn hình là tài liệu được quét ban đầu, nhưng kết quả có thể tìm kiếm được.

Những gì tôi đang tìm kiếm là một cách để tự động hóa quá trình này. Hiện tại tôi đã có một vài tập lệnh mà chúng tôi sử dụng để xử lý và lưu trữ các tệp được quét và đang tìm kiếm thứ gì đó mà tôi có thể cắm ngay vào quy trình hàng loạt này để thực hiện OCR theo cách tương tự như tôi có thể làm với Acrobat.

Tất cả các đề xuất chào mừng, cảm ơn!


1
Tái bút - Tôi cố gắng giữ các câu hỏi về người dùng trên superuser. Tuy nhiên, việc triển khai kết quả từ câu hỏi này chắc chắn sẽ tồn tại trên máy chủ mà tôi đã xử lý tài liệu được quét ... vì vậy đó là một vấn đề.
Boden

Câu trả lời:


8

Tôi đã thực hiện điều này trong một dự án lưu trữ tài liệu của công ty. Tệp được quét là một tệp tif (trang đơn). Sau đó, sử dụng Cuneiform để tạo một tệp hoc của tif đơn. Sau đó, sử dụng hoc2pdf để xuất tệp PDF. Nếu nhiều trang quét, tôi sử dụng gs để kết hợp các tệp PDF thành một tài liệu PDF. Hoạt động thực sự tốt, OCR đủ tốt cho nhu cầu của chúng tôi và có thể tìm kiếm trong bất kỳ trình xem PDF nào.


Hấp dẫn. Trước khi tôi dành quá nhiều thời gian để xem nó, liệu PDF có phải là hình ảnh từ bản quét gốc với một lớp văn bản nhúng hay chỉ là văn bản?
Boden

Đó là hình ảnh của bản quét gốc với lớp văn bản nhúng. Các tập tin hoc là đầu ra văn bản với đánh dấu html.
xeon

Thông minh. Tôi sẽ cho nó một shot. Nếu có vẻ như nó sẽ hoạt động tôi sẽ đánh dấu câu trả lời của bạn được chấp nhận. Cảm ơn!
Boden

1
Cảm ơn một lần nữa. Một chút đau đớn để cài đặt hai người này, nhưng nó hoạt động. Tôi đã viết một tập lệnh đơn giản để kiểm tra thư mục FTP cho các tệp .tif mới mà nó chạy cuneiform và hoc2pdf, sau đó tải kết quả lên thư viện tài liệu sharpoint bằng curl. Do đó, mọi người có thể lưu trữ tài liệu ngay từ máy sao chép và tài liệu lưu trữ hoàn toàn có thể tìm kiếm bằng văn bản. Câu hỏi: bạn có biết tùy chọn "ghi đè độ phân giải" trong hoc2pdf không?
Boden

Tôi vui vì nó đang làm việc cho bạn. Tôi không biết rằng đối số -r không.
xeon

1

Bạn đã xem WatchOCR chưa? Bạn có thể tải xuống từ http: //www.watch nob.com Đây là máy chủ OCR miễn phí và mã nguồn mở, chuyển đổi hình ảnh chỉ pdf thành văn bản pdf có thể tìm kiếm từ thư mục đã xem hoặc chia sẻ mạng.


0

Tôi thích âm thanh của câu trả lời của xeon, mặc dù OCRopus nghe có vẻ rất vui.


Khi tôi đang nghiên cứu và thử nghiệm các giải pháp khác nhau. Tôi đã thử điều đó và tesseract-ocr và họ không có đầu ra tốt cho PDF vào thời điểm đó. Tôi đã không xem xét nếu họ có những tính năng đó ... Tôi biết tesseract-ocr có tính năng này trong dòng thời gian của họ ...
xeon
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.