tl; dr? Bắt đầu với Nuance PowerPDF Advanced.
Tôi đã đánh giá phần mềm OCR vào tháng 12 năm 2014 để chuẩn bị cho một dự án lớn - OCR trên hàng triệu trang tiếng Anh được thực hiện theo lô. Nếu bạn sẵn sàng chi vài trăm đô la, bạn có nhiều lựa chọn; phiên bản dùng thử có thể giúp bạn thông qua nếu bạn chỉ cần chuyển đổi vài trăm trang.
Nhiều gói phần mềm muốn tải tất cả các tệp đầu vào, thực hiện OCR và kết hợp lại mớ hỗn độn thành một đầu ra duy nhất. IMHO điều này là sai lầm, tôi không biết ai sẽ muốn điều đó. Tôi đang tìm kiếm lô thực sự: một tệp đầu ra cho mỗi tệp đầu vào, hoạt động không giám sát, không dừng lại cho bất cứ điều gì, đưa cho tôi một báo cáo chi tiết ở cuối. Spoiler alert: Tôi đã không tìm thấy điều đó.
Các gói theo thứ tự chữ cái theo sau. Giá hiển thị dưới đây là danh sách nhưng giảm giá rất nhiều. Lấy ý kiến của tôi về độ chính xác với một hạt muối; đầu vào của bạn sẽ không giống với đầu vào của tôi vì vậy số dặm của bạn chắc chắn sẽ thay đổi.
ABBYY Finerhead 12 Corporate: $ 400. Tính năng hàng loạt được gọi là "Trình quản lý tác vụ" và trên menu Công cụ. Nó sẽ xử lý các tệp từ một thư mục, bao gồm các thư mục con; nó sẽ vui vẻ tạo một tệp đầu ra riêng cho mỗi tệp đầu vào. Nó dường như không có khả năng duy trì hệ thống phân cấp thư mục đầu vào; tất cả các tập tin đầu ra đã đi đến cùng một thư mục đầu ra. Độ chính xác cao trong các thử nghiệm của tôi, nhưng vẫn thấp nhất trong các gói tôi đã liệt kê ở đây.
Adobe Acrobat XI: $ 300. Tính năng hàng loạt được gọi là "Nhận dạng văn bản / Trong nhiều tệp" có thể được tìm thấy bằng cách nhấp vào Công cụ (thanh công cụ thứ ba, phía trên bên phải của màn hình chính). Xử lý các thư mục con, một đầu ra cho mỗi đầu vào. Dừng và đưa ra lời nhắc nếu tìm thấy tệp được bảo vệ bằng mật khẩu. Không bảo tồn cây thư mục đầu vào theo mặc định; có thể làm như vậy bằng cách viết đầu ra vào cùng thư mục với đầu vào. Độ chính xác là khá tốt trong các thử nghiệm của tôi.
Nuance OmniPage Ultimate (còn gọi là v19): 500 đô la. Tính năng hàng loạt được gọi là "DocuDirect" và đây là một chương trình riêng đi kèm với gói. Nó sẽ xử lý các thư mục và thư mục con; nếu bạn chọn các tính năng vừa phải, nó sẽ bảo vệ cây thư mục đầu vào trong khu vực đầu ra. Một đầu ra cho mỗi đầu vào. Dừng và yêu cầu mật khẩu cho một tập tin được bảo vệ. Có vẻ như tận dụng lợi thế tuyệt vời của bộ xử lý đa lõi để chạy các tác vụ song song. Độ chính xác là tuyệt vời . Nhưng độ ổn định của bộ xử lý hàng loạt là kém; một tài liệu mờ sẽ dừng nó trong các bài hát của nó, không bao giờ khôi phục, trật bánh một cách dễ dàng.
Nuance PowerPDF Advanced v1.1 (kế thừa OmniPage Ultimate): $ 150. Tính năng hàng loạt được gọi là "Chuyển đổi hàng loạt" và có thể truy cập từ chương trình chính trong tab Xử lý nâng cao. Nó sẽ xử lý các thư mục và thư mục con, bảo toàn cấu trúc đầu vào trong đầu ra. Một đầu ra cho mỗi đầu vào. Sẽ sử dụng nhiều lõi, nhưng không tích cực; điều đó có nghĩa là tôi không thể làm cho nó bão hòa một máy chủ đa lõi. Độ chính xác là tuyệt vời , tốt hoặc tốt hơn OmniPage. Các tập tin xấu hoặc mờ không làm cho nó bị treo. Bộ xử lý hàng loạt ghi ( sốc ) một tệp nhật ký văn bản đơn giản vào thư mục đầu ra.
Công ty ReadIris 14: $ 600. Tính năng Batch được gọi bởi mục "Batch OCR" được tiết lộ bằng cách nhấp vào nút "From Files" trên màn hình chính. Nó sẽ xử lý các thư mục và thư mục con, một đầu ra cho mỗi đầu vào và theo mặc định, cấu trúc thư mục đầu ra khớp với cấu trúc thư mục đầu vào. Dừng và yêu cầu người dùng nhập vào một tệp không hợp lệ; xử lý mà không khiếu nại thêm tất cả các tài liệu được bảo vệ rõ ràng bằng OCR-ing hình ảnh. Độ chính xác rất tốt, ngang bằng với Acrobat.
Trên máy tính để bàn của tôi (chỉ có lõi kép), với các đầu vào đã chọn của tôi, mỗi gói cần ít nhất 3 giây để xử lý một trang; một số mất nhiều hơn Có thể có thể lái nó xuống trên một máy có nhiều lõi hơn.
Gotchas có rất nhiều, hãy chắc chắn lập kế hoạch cho chúng: các tệp PDF không hợp lệ (một số gói tạm dừng), các tệp PDF được bảo vệ bằng mật khẩu (một số gói tạm dừng, một số khác chuyển đổi bằng mọi cách!) Và các trang được xoay (ngang thay vì dọc). Nếu bạn muốn lô chạy đến khi hoàn thành, bạn phải chuẩn bị khu vực đầu vào cho các gói này Rất, Rất cẩn thận. Xem xét tính năng in-to-PDF của gói GhostScript để biết cách loại bỏ bảo vệ khỏi các tệp PDF.
Chạy các lô lớn có thể dẫn đến cạn kiệt bộ nhớ và treo, thậm chí không nên (argh - có thể bị rò rỉ bộ nhớ). Nếu bạn đang thực hiện bất kỳ loại tự động hóa nào, một vấn đề lớn là phát hiện ra sau thực tế những gì đã xảy ra - tài liệu không thể xử lý, thất bại trong quá trình xử lý, v.v. Giống như phần mềm máy tính để bàn mọi người chưa bao giờ nghe về một thứ gọi là "tệp nhật ký".
Cuối cùng, nhận được hỗ trợ, ngay cả khi là một khách hàng trả tiền, là khá khó khăn cho các gói thị trường đại chúng này. Ví dụ, tôi đã phàn nàn với một đại diện hỗ trợ khách hàng quý trọng về một gói (sẽ vẫn không tên) đối với một số đầu vào lớn. Tôi đã đợi 36 giờ trước khi bỏ cuộc :). Họ ngọt ngào đề nghị giới hạn kích thước lô đến 300 tài liệu. Điều đó hoàn toàn không thể chấp nhận được đối với tôi, nhưng hey, nó đã nhận được vé hỗ trợ nhanh chóng, phải không? Và đó là tất cả những gì quan trọng, phải không? Thở dài.
HTH