Tôi có vài ngàn trang sách được quét. Mỗi trang được lưu riêng lẻ dưới dạng JPG. Chữ viết rõ ràng, nhưng phông chữ khác nhau, và các trang bao gồm hình ảnh và hình minh họa.
Tôi cần tạo một danh sách tất cả các từ xuất hiện trong mỗi tệp JPG. Có một công cụ dòng lệnh để quét một hình ảnh liệt kê các từ xuất hiện? Nó không cần phải quét hoàn hảo, chỉ cần một ước tính.