Tesseract
Kể từ năm 2018, phần mềm OCR mã nguồn mở tốt nhất là Tesseract 4 (beta) với mô hình OCR mạng thần kinh LSTM mới của nó . Hiệu suất OCR của nó tốt hơn nhiều so với mô hình OCR trước đây được sử dụng trong phiên bản 3.
Ví dụ (tạo tệp PDF output.pdf
có lớp văn bản cho tài liệu tiếng Đức được quét):
$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf
In văn bản được công nhận lên thiết bị xuất chuẩn:
$ tesseract --oem 1 -l deu page page-0001.png stdout
Liệt kê các ngôn ngữ đã cài đặt:
$ tesseract --list-langs
Hỗ trợ cho khá nhiều ngôn ngữ / tập lệnh có sẵn ở dạng tập dữ liệu được đào tạo có thể tải xuống , ví dụ: thậm chí còn có tập dữ liệu cho Fraktur.
Với mô hình LSTM mới, Tesseract lấy một số cảm hứng từ dự án nghiên cứu OCRopus .
Tesseract phiên bản 3 hoạt động tương đối tệ ngay cả trên các hình ảnh đầu vào có chất lượng tốt, tức là nó thường phát hiện sai các ký tự đơn trong các pixel bụi (bên ngoài bất kỳ bối cảnh văn bản nào) và dễ dàng đưa ra các lỗi ký tự đơn trong các từ nổi tiếng.
Hình nêm
Hiệu suất OCR của Cuneiform không tệ, nhưng nó không được duy trì tích cực (phiên bản cuối năm 2011, phiên bản 1.1) và dễ dàng gặp sự cố và có một số vấn đề khác:
- Lỗi phân đoạn với các gói và bản phát hành khác nhau
- thuật toán bố trí của nó đơn giản là bị hỏng, tức là trong các đoạn văn bản một cột thường được xáo trộn ngẫu nhiên xung quanh
- nó không lỗi ở các tùy chọn không xác định
Bạn có thể vô hiệu hóa thuật toán bố trí như thế này:
$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001
( -l
chỉ định ngôn ngữ của tài liệu nguồn)
ocrad
$ ocrad -F utf8 image-0001
Văn bản được in theo mặc định đến thiết bị xuất chuẩn.
Trong một tài liệu kinh doanh, nó đã bỏ lỡ một từ được gạch chân, trong đó chữ hình nêm / tesseract / goc không có.
chuyên chế
$ gocr image-0001
Văn bản được in theo mặc định đến thiết bị xuất chuẩn.
Phần cứng
Sane hỗ trợ rất tốt cho rất nhiều máy quét tài liệu tự động (ADF), ví dụ như cho Avision và Fujitsu .
Kèm theo Sane là scanimage
chương trình dòng lệnh mà bạn có thể sử dụng để xây dựng các đường ống quét theo kịch bản (ví dụ: adf2pdf.py
tập lệnh của tôi ).