Phần mềm này một phần dựa trên Tesseract, công cụ OCR mã nguồn mở tốt nhất hiện có. Mặc dù dự án dự kiến sẽ được phát hành vào cuối năm tới và sẽ được sử dụng cho dự án quét sách của Google, nhóm này có một số ứng dụng thú vị:
- giao diện dịch vụ web
- PDF, máy ảnh và màn hình OCR
- tích hợp với các công cụ tìm kiếm trên máy tính để bàn: Beagle, Spotlight, Google Desktop
OCRopus (tm) là một hệ thống phân tích tài liệu và hệ thống OCR tiên tiến, bao gồm phân tích bố cục có thể cắm, nhận dạng ký tự có thể cắm, mô hình ngôn ngữ tự nhiên thống kê và khả năng đa ngôn ngữ.
Công cụ OCRopus dựa trên hai dự án nghiên cứu: bộ nhận dạng chữ viết hiệu suất cao được phát triển vào giữa những năm 90 và được triển khai bởi Cục điều tra dân số Hoa Kỳ và các phương pháp phân tích bố cục hiệu suất cao mới lạ.
OCRopus là sự phát triển được tài trợ bởi Google và ban đầu được dành cho các nỗ lực chuyển đổi tài liệu với khối lượng lớn, thông lượng cao. Chúng tôi hy vọng rằng nó cũng sẽ là một hệ thống OCR tuyệt vời cho nhiều ứng dụng khác.
Liên kết:
GOCR là chương trình OCR (Nhận dạng ký tự quang học), được phát triển theo Giấy phép Công cộng GNU. Nó chuyển đổi hình ảnh được quét của văn bản trở lại tập tin văn bản. Joerg Schulenburg bắt đầu chương trình, và bây giờ dẫn đầu một nhóm các nhà phát triển. GOCR có thể được sử dụng với các giao diện người dùng khác nhau, điều này giúp cho việc chuyển sang các hệ điều hành và kiến trúc khác nhau rất dễ dàng. Nó có thể mở nhiều định dạng hình ảnh khác nhau và chất lượng của nó đã được cải thiện hàng ngày.