Khuyến nghị phần mềm nhận dạng ký tự quang học?


15

Tôi đã thấy một số sách điện tử / giấy tờ rõ ràng được quét từ các phiên bản giấy của họ nhưng văn bản trong sách điện tử / giấy tờ có thể được sao chép một cách đáng kinh ngạc. Tôi cho rằng các phiên bản được quét trực tiếp phải được xử lý bởi một số phần mềm Nhận dạng ký tự quang học.

Vì vậy, tôi muốn biết các phần mềm nhận dạng ký tự quang học được đề xuất là gì? Đặc biệt là những thứ dành cho Ubuntu hoặc miễn phí? Nếu những cái đó cho Windows vượt trội hơn nhiều, xin vui lòng cho tôi biết.

Tôi đặc biệt quan tâm đến những OCR có thể chấp nhận tệp pdf được quét làm đầu vào và vẫn tạo ra một tệp pdf khác trông giống như đầu vào nhưng có thể sao chép văn bản.

Cảm ơn và trân trọng!

Vui lòng giới hạn một phần mềm cho mỗi câu trả lời

Câu trả lời:


10

Tesseract OCR Cài đặt Tesseract OCR

Công cụ ban đầu được phát triển trở lại vào cuối những năm 80 bởi HP và IBM nhưng nó đã được chứng minh là một trong những Phần mềm Nhận dạng Mắt tốt nhất mà tôi đã sử dụng. Gần đây, nó đã trải qua nhiều bản cập nhật cho động cơ và đã trở thành một trong những công cụ OCR toàn diện nhất trên thị trường. Vượt qua hầu hết tất cả các công cụ OCR khác (với thứ gì đó trong 90 phần trăm phù hợp văn bản cao hơn), nó có thể dễ dàng chuyển đổi khuôn mặt loại tài liệu tiêu chuẩn thành văn bản.

Sau đây là một ví dụ:

tesseract ScannedDocument.png out

Sẽ tạo ra một tệp gọi là out.txt


Cảm ơn! Tôi không thấy rằng Tesseract hỗ trợ đầu ra pdf. bạn có biết về điều này không?
Tim

@Tim, thực sự tôi không tin Tesseract hỗ trợ nhiều định dạng đầu vào / đầu ra. Tuy nhiên, như câu trả lời của JanC đề cập, gscan2pdf sử dụng Tesseract cho OCR và như tên của nó, nó hỗ trợ đầu ra PDF.
Tim Lyussy

Lưu ý rằng OCR là viết tắt của Nhận dạng ký tự quang học : en.wikipedia.org/wiki/Optical_character_recognition
Jose Gómez

8

Một dự án khác có thể làm điều này là gscan2pdf

sudo apt-get install gscan2pdf

Dự án này cũng có thể sử dụng Tesseract, cũng như các công cụ OCR mã nguồn mở khác.


3

Tôi không biết bất kỳ OCR nào cho Ubuntu, nhưng đối với Windows, có một tính năng bạn cần. Đó là ABBYY FineReader, đây là trang nhưng nó không miễn phí


1
Tôi đã sử dụng FineReader chính xác như Tim muốn (để mở các tệp PDF được bảo vệ)
Extender

3

Giải pháp miễn phí tồn tại trong repos, CunieForm (và YAGF là tiền đề Gnome cho nó)


Cảm ơn! CunieForm có hỗ trợ pdf dưới dạng định dạng đầu vào và đầu ra không? Tôi không thấy điều này trên trang Wikipedia và trang chính thức của nó.
Tim

Có thể không, nhưng phân tách PDF thành một loạt TIFF dù sao cũng là nhiệm vụ đơn giản :)
Extender

3

Có vẻ như dự án Decapod đã hoặc sẽ xuất sang PDF, vì vậy Tesseract phải bằng cách nào đó xuất thông tin cần thiết để biết nơi tìm thấy văn bản.


1

Adobe Acrobat (không phải người đọc, không phải ứng dụng miễn phí) có khả năng OCR-ing một tài liệu PDF được quét và thêm một lớp văn bản vô hình ở trên cùng của hình ảnh, để có thể chọn và sao chép văn bản. Thật không may, tôi không có ích để kiểm tra chính xác tính năng đó nằm ở đâu trong giao diện người dùng của Acrobat, nhưng tôi đã sử dụng thành công vài lần cho cùng một mục đích như bạn đã đề cập.

Và vâng, đây là một phần mềm Windows, không phải Linux, nhưng theo cơ sở dữ liệu ứng dụng Wine HQ, nó hoạt động theo Wine .


1

Phần mềm OCR tốt nhất thường được nhúng trong máy in / máy quét / máy photocopy. Canon IRC 3880 trong văn phòng của tôi có thể tạo ra các bản pdf tuyệt vời dễ dàng và nhanh hơn bất kỳ chương trình máy tính để bàn nào tôi biết. Đặt sách vào khay (không gắn kết), chọn địa chỉ thư của bạn, nhấn nút màu xanh lá cây.

Hầu hết các pdf của OCR mà bạn có thể tìm thấy trên mạng đều dành cho các máy tương tự. Vấn đề là giá quá cao cho việc sử dụng nhà (khoảng 12000 euro IRC).




Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.