Gần đây tôi đã xem qua Tesseract và OpenCV . Có vẻ như Tesseract là một công cụ OCR chính thức và OpenCV có thể được sử dụng như một khuôn khổ để tạo một ứng dụng / dịch vụ OCR.
Tôi đã thử sử dụng Tesseract trên một số hình ảnh của mình và độ chính xác của nó có vẻ khá. Sau đó, tôi đã xem qua một hướng dẫn rất đơn giản về cách sử dụng OpenCV để thực hiện OCR bằng Python và rất ấn tượng. Trong vài phút, tôi đã hoàn thành việc huấn luyện hệ thống và độ chính xác của nó rất tốt. Nhưng tất nhiên, thực hiện cách tiếp cận này có nghĩa là tôi cần đào tạo hệ thống của mình một cách rộng rãi bằng cách sử dụng một tập hợp đào tạo lớn.
Các câu hỏi cụ thể của tôi như sau:
- Làm cách nào để chọn giữa Tesseract và sử dụng OpenCV để tạo ứng dụng OCR tùy chỉnh?
- Có bộ dữ liệu đào tạo có sẵn cho Tesseract cho các ngôn ngữ khác nhau. OpenCV có điều gì đó tương tự để tôi không cần phải bắt đầu để đạt được OCR không?
- Cái nào tốt hơn cho một ứng dụng thương mại muốn trở thành?
Bất kỳ đề xuất?