Batch OCR cho nhiều tệp PDF (chưa OCRed)? [đóng cửa]


9

Tôi sử dụng Google Desktop Search (tôi đang dùng Vista) và không phải tất cả các tệp PDF của tôi đều được nhận dạng trong thư mục lưu trữ của tôi. Điều này là bình thường vì " các tệp PDF có chứa hình ảnh được quét " không được lập chỉ mục ( http://desktop.google.com/support/onsKalk = vi & MST90651 )

Vì vậy, tôi muốn OCR nhiều tệp PDF của tôi chưa được OCRed. Mục tiêu của tôi: Tôi cung cấp cho chương trình một thư mục và nó tìm kiếm một mình trong các thư mục con các tệp PDF cần được chuyển đổi thành các tệp PDF-OCRed.

Lưu ý: Trước đây, nếu một tệp PDF được bảo vệ bằng mật khẩu, tôi đã xóa mật khẩu bằng một công cụ (trả tiền) khác: Verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

Bất kỳ ý tưởng (không quá đắt)?

Tôi đã thử: Finereader 6 pro trên xp vào thời điểm đó, nhưng không có bộ xử lý hàng loạt bao gồm ... Paperfile paperfile.net sử dụng Tesseract http://code.google.com.vn/p/tesseract- nền / . Nhưng OCR chỉ là PDF thành văn bản, không phải PDF sang PDF! Ngoài ra còn có một dự án khác http://code.google.com.vn/p/ocropus/

Cảm ơn trước ;)


Một năm sau cập nhật: Xin chào, Rõ ràng phần mềm "ABBYY Thư mục nóng & Lập lịch", chỉ được bao gồm trong ABBYY FineReader (> v. 9.0) Phiên bản giấy phép doanh nghiệp & trang web, có thể giúp ích (Tôi đã không thử: 600 $!)! Ngoài ra Tesseract nên làm việc trên windows ngay bây giờ (không thành công với tôi ngay bây giờ !; ()
Erb

Ngoài ra, phiên bản Pro của ABBYY FineReader (> v. 9.0) có nhiệm vụ tự động hóa: bạn chọn thư mục chính + các thư mục con của nó và nó thực hiện công việc. Nhưng vấn đề chính là nó mở tất cả pdf cùng một lúc (!!), sau đó đọc chúng (= ocr) và sau đó lưu một tệp pdf duy nhất! Vì vậy, nếu bạn có hàng trăm pdf, thứ chết tiệt đó không hoạt động với tôi! ; (Quá tệ, thật là một cơn ác mộng !; (
Erb

Câu trả lời:


6

tl; dr? Bắt đầu với Nuance PowerPDF Advanced.

Tôi đã đánh giá phần mềm OCR vào tháng 12 năm 2014 để chuẩn bị cho một dự án lớn - OCR trên hàng triệu trang tiếng Anh được thực hiện theo lô. Nếu bạn sẵn sàng chi vài trăm đô la, bạn có nhiều lựa chọn; phiên bản dùng thử có thể giúp bạn thông qua nếu bạn chỉ cần chuyển đổi vài trăm trang.

Nhiều gói phần mềm muốn tải tất cả các tệp đầu vào, thực hiện OCR và kết hợp lại mớ hỗn độn thành một đầu ra duy nhất. IMHO điều này là sai lầm, tôi không biết ai sẽ muốn điều đó. Tôi đang tìm kiếm lô thực sự: một tệp đầu ra cho mỗi tệp đầu vào, hoạt động không giám sát, không dừng lại cho bất cứ điều gì, đưa cho tôi một báo cáo chi tiết ở cuối. Spoiler alert: Tôi đã không tìm thấy điều đó.

Các gói theo thứ tự chữ cái theo sau. Giá hiển thị dưới đây là danh sách nhưng giảm giá rất nhiều. Lấy ý kiến ​​của tôi về độ chính xác với một hạt muối; đầu vào của bạn sẽ không giống với đầu vào của tôi vì vậy số dặm của bạn chắc chắn sẽ thay đổi.

ABBYY Finerhead 12 Corporate: $ 400. Tính năng hàng loạt được gọi là "Trình quản lý tác vụ" và trên menu Công cụ. Nó sẽ xử lý các tệp từ một thư mục, bao gồm các thư mục con; nó sẽ vui vẻ tạo một tệp đầu ra riêng cho mỗi tệp đầu vào. Nó dường như không có khả năng duy trì hệ thống phân cấp thư mục đầu vào; tất cả các tập tin đầu ra đã đi đến cùng một thư mục đầu ra. Độ chính xác cao trong các thử nghiệm của tôi, nhưng vẫn thấp nhất trong các gói tôi đã liệt kê ở đây.

Adobe Acrobat XI: $ 300. Tính năng hàng loạt được gọi là "Nhận dạng văn bản / Trong nhiều tệp" có thể được tìm thấy bằng cách nhấp vào Công cụ (thanh công cụ thứ ba, phía trên bên phải của màn hình chính). Xử lý các thư mục con, một đầu ra cho mỗi đầu vào. Dừng và đưa ra lời nhắc nếu tìm thấy tệp được bảo vệ bằng mật khẩu. Không bảo tồn cây thư mục đầu vào theo mặc định; có thể làm như vậy bằng cách viết đầu ra vào cùng thư mục với đầu vào. Độ chính xác là khá tốt trong các thử nghiệm của tôi.

Nuance OmniPage Ultimate (còn gọi là v19): 500 đô la. Tính năng hàng loạt được gọi là "DocuDirect" và đây là một chương trình riêng đi kèm với gói. Nó sẽ xử lý các thư mục và thư mục con; nếu bạn chọn các tính năng vừa phải, nó sẽ bảo vệ cây thư mục đầu vào trong khu vực đầu ra. Một đầu ra cho mỗi đầu vào. Dừng và yêu cầu mật khẩu cho một tập tin được bảo vệ. Có vẻ như tận dụng lợi thế tuyệt vời của bộ xử lý đa lõi để chạy các tác vụ song song. Độ chính xác là tuyệt vời . Nhưng độ ổn định của bộ xử lý hàng loạt là kém; một tài liệu mờ sẽ dừng nó trong các bài hát của nó, không bao giờ khôi phục, trật bánh một cách dễ dàng.

Nuance PowerPDF Advanced v1.1 (kế thừa OmniPage Ultimate): $ 150. Tính năng hàng loạt được gọi là "Chuyển đổi hàng loạt" và có thể truy cập từ chương trình chính trong tab Xử lý nâng cao. Nó sẽ xử lý các thư mục và thư mục con, bảo toàn cấu trúc đầu vào trong đầu ra. Một đầu ra cho mỗi đầu vào. Sẽ sử dụng nhiều lõi, nhưng không tích cực; điều đó có nghĩa là tôi không thể làm cho nó bão hòa một máy chủ đa lõi. Độ chính xác là tuyệt vời , tốt hoặc tốt hơn OmniPage. Các tập tin xấu hoặc mờ không làm cho nó bị treo. Bộ xử lý hàng loạt ghi ( sốc ) một tệp nhật ký văn bản đơn giản vào thư mục đầu ra.

Công ty ReadIris 14: $ 600. Tính năng Batch được gọi bởi mục "Batch OCR" được tiết lộ bằng cách nhấp vào nút "From Files" trên màn hình chính. Nó sẽ xử lý các thư mục và thư mục con, một đầu ra cho mỗi đầu vào và theo mặc định, cấu trúc thư mục đầu ra khớp với cấu trúc thư mục đầu vào. Dừng và yêu cầu người dùng nhập vào một tệp không hợp lệ; xử lý mà không khiếu nại thêm tất cả các tài liệu được bảo vệ rõ ràng bằng OCR-ing hình ảnh. Độ chính xác rất tốt, ngang bằng với Acrobat.

Trên máy tính để bàn của tôi (chỉ có lõi kép), với các đầu vào đã chọn của tôi, mỗi gói cần ít nhất 3 giây để xử lý một trang; một số mất nhiều hơn Có thể có thể lái nó xuống trên một máy có nhiều lõi hơn.

Gotchas có rất nhiều, hãy chắc chắn lập kế hoạch cho chúng: các tệp PDF không hợp lệ (một số gói tạm dừng), các tệp PDF được bảo vệ bằng mật khẩu (một số gói tạm dừng, một số khác chuyển đổi bằng mọi cách!) Và các trang được xoay (ngang thay vì dọc). Nếu bạn muốn lô chạy đến khi hoàn thành, bạn phải chuẩn bị khu vực đầu vào cho các gói này Rất, Rất cẩn thận. Xem xét tính năng in-to-PDF của gói GhostScript để biết cách loại bỏ bảo vệ khỏi các tệp PDF.

Chạy các lô lớn có thể dẫn đến cạn kiệt bộ nhớ và treo, thậm chí không nên (argh - có thể bị rò rỉ bộ nhớ). Nếu bạn đang thực hiện bất kỳ loại tự động hóa nào, một vấn đề lớn là phát hiện ra sau thực tế những gì đã xảy ra - tài liệu không thể xử lý, thất bại trong quá trình xử lý, v.v. Giống như phần mềm máy tính để bàn mọi người chưa bao giờ nghe về một thứ gọi là "tệp nhật ký".

Cuối cùng, nhận được hỗ trợ, ngay cả khi là một khách hàng trả tiền, là khá khó khăn cho các gói thị trường đại chúng này. Ví dụ, tôi đã phàn nàn với một đại diện hỗ trợ khách hàng quý trọng về một gói (sẽ vẫn không tên) đối với một số đầu vào lớn. Tôi đã đợi 36 giờ trước khi bỏ cuộc :). Họ ngọt ngào đề nghị giới hạn kích thước lô đến 300 tài liệu. Điều đó hoàn toàn không thể chấp nhận được đối với tôi, nhưng hey, nó đã nhận được vé hỗ trợ nhanh chóng, phải không? Và đó là tất cả những gì quan trọng, phải không? Thở dài.

HTH


Xin chào Chrislott, Cảm ơn bạn đã trả lời chi tiết. ;) Tôi đánh giá cao. ;) Chúng tôi đã hơn 4 năm sau và thật không ngờ vẫn chưa có phần mềm nào hoàn hảo để chỉ cần thực hiện OCR tự động trong một thư mục và phát hành tệp nhật ký có lỗi sau khi hoàn tất! ... Có lẽ tôi sẽ cố gắng liên lạc với Nuance.
Erb

Hiện tại tôi sử dụng một phiên bản cũ của Acrobat pro và một số phần mềm miễn phí. Đó là một quá trình lâu dài. Tôi có thể chi tiết nó nếu cần thiết! Nhưng công việc được thực hiện tốt nhất có thể! ;)
Erb

3

Adobe Acrobat sẽ xử lý một thư mục PDF và giống như hầu hết các sản phẩm Adobe có bản dùng thử 30 ngày .
Chức năng này nằm trong menu 'Tài liệu':

Tài liệu> Điều chỉnh văn bản OCR> Nhận dạng văn bản trong nhiều tệp bằng OCR

từ nơi bạn có thể thêm thư mục của bạn.

Trong Acrobat X, chức năng có sẵn như sau:

Công cụ> Nhận dạng văn bản> Trong nhiều tệp

Cảm ơn bạn "xương chậu". ;) Tôi sẽ thử nó khi thời gian cho phép. Điều tôi thích trong thử nghiệm trước đây của tôi về finereader.abbyy.com là nó có thể nhận ra một số ngôn ngữ khác nhau. ;)
Erb

1

Trên thực tế, pdfsandwich đã được cập nhật trong năm ngoái và tôi không khó cài đặt Linux Linux. Kết quả mà nó mang lại không thua kém Adobe Acrobat, nhưng đó là giải pháp khả thi duy nhất tôi tìm thấy trong Linux cho đến nay.


1
Rất thú vị! Tôi không biết về nó. Tôi đang thêm một liên kết từ en.wikisource.org/wiki/ và sẽ kiểm tra nó tại một thời điểm nào đó trong tương lai. (Thực tế có nhiều giải pháp khác nhưng tôi sẽ không bắt đầu ở đây!)
Nemo

0

Hãy thử WatchOCR . Nó là một gói phần mềm nguồn mở giúp chuyển đổi các hình ảnh được quét thành các tệp pdf có thể tìm kiếm văn bản. Nó là nguồn mở và miễn phí và có giao diện web đẹp cho quản trị từ xa. Với cấu hình phù hợp, nó được sử dụng để tạo ra một dịch vụ pdf / ocr hàng loạt cho toàn bộ mạng thông qua các chia sẻ smb. Thật không may, nó chỉ là linux. Nhưng bạn có thể cài đặt nó trên một máy chủ cũ và sau đó toàn bộ tổ chức của bạn có thể sử dụng nó.

Nếu bạn muốn thực hiện tương tự trực tuyến mà không cần cài đặt bất cứ điều gì, hãy thử PDFCubed.com


Trang chủ WatchOCR bị ngồi xổm, mặc dù được lưu trữ
Tobias Kienzler
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.