Phần mềm quét PDF cho Linux?

Tôi có một quy trình làm việc theo đó tôi quét tài liệu giấy thành các tệp PDF có thể tìm kiếm bằng máy quét tài liệu Fujitsu ScanSnap S500 . Tôi không phải là một fan hâm mộ lớn của phần mềm đi kèm, nhưng nó rất đơn giản để sử dụng: đặt một chồng giấy ở trên cùng, nhấn nút màu xanh lá cây và một tệp PDF có thể tìm kiếm xuất hiện.

Bây giờ, tôi muốn làm một cái gì đó tương tự trên Linux (Ubuntu 10.10). Máy quét được hỗ trợ ra khỏi hộp.

Tôi đã xem gscan2pdfvà XSane:

XSane trông mạnh mẽ, nhưng không thực sự phù hợp như một giải pháp quy trình công việc;
gscan2pdf gần hơn một chút với lý tưởng "nhấn nút, lấy PDF", nhưng vẫn không 100% ở đó.

Bất kỳ phần mềm nào khác bạn có thể giới thiệu (miễn phí hoặc bằng cách khác)?

linux pdf scanning

— NPE
nguồn

Tôi sử dụng cốc pdf, nhưng nó là một hình ảnh không thể tìm kiếm văn bản

— RobotHumans

Có gì 'không phải 100%' với gscan2pdf?

— Digitxp

@digitxp Tôi không muốn làm lộn xộn câu hỏi với một danh sách các vấn đề, lượt thích và không thích cho bất kỳ sản phẩm nào. Tuy nhiên, vì bạn hỏi, trong gscan2pdftôi có những đồ tạo tác kỳ lạ với 'không giấy tờ, OCR hầu như không sử dụng được (một số động cơ tốt hơn các loại khác) và nói chung, nó không hoàn toàn hợp lý như giải pháp ban đầu. Dù sao đi nữa, bản chất của câu hỏi của tôi là xem những gì khác ngoài đó để tôi có thể thử nhiều giải pháp khác nhau và xem những gì phù hợp nhất với tôi.

— NPE

@digitxp Tôi vừa đọc lại bình luận trước đây và nghe có vẻ khá tiêu cực. Đó không phải là ý định. gscan2pdfthực sự khá gần với những gì tôi đang tìm kiếm, nhưng có những lĩnh vực mà nó còn thiếu một cách đáng buồn so với giải pháp ban đầu.

— NPE

Dưới đây là một số điều mà tôi tìm thấy khi nghiên cứu này vào đầu năm nay. Xin lỗi, tôi không thể đăng nhiều hơn một siêu liên kết do xếp hạng hạn chế của mình, vì vậy bạn sẽ phải gửi cho Google các liên kết.

gscan2pdf

Một hệ thống GUI thực sự tốt có thể sử dụng các công cụ OCR khác nhau cho phần phụ trợ. Điều này có thể sẽ đáp ứng giải pháp một chạm của bạn (và Digitxp đã đề cập đến nó).

Động cơ OCR Tesseract

Có thể được sử dụng với gscan2pdf.

http://www.linuxjournal.com/article/9676

Đại dương

Tôi đã không đi được rất xa với ocropus vì nó không nhận ra văn bản mà không được đào tạo mở rộng. Nó có thể thực sự tốt cho sách, nhưng không hiệu quả với tôi với hóa đơn và những thứ tương tự. YMMV.

Hình nêm

Tôi đã thành công nhất với Cuneiform và có thể tạo các tệp PDF có thể tìm kiếm bằng cách viết các lệnh tương tự như quy trình công việc sau:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html

Bạn cũng sẽ cần phải cài đặt gói chính xác.

Các dự án nguồn mở khác nhau cho OCR'ing PDF cũng sử dụng Cuniform và hoc2pdf :

WatchOCR
Archivista

Hãy cho tôi biết những gì bạn tìm hiểu!

— Eric Holmberg
nguồn