Tôi có một tài liệu PDF được quét mà tôi muốn thêm lớp văn bản ẩn, vì vậy tôi có thể lập chỉ mục tài liệu. Tôi đã sử dụng thiết bị đầu ra tiff đen và trắng (tiffg4) để trích xuất các trang dưới dạng hình ảnh tiff và đây là ví dụ về hình dạng của chúng:
Xử lý hình ảnh này với tesseract, không cho kết quả tốt.
Thay đổi đầu ra ghostscript DPI (600, 300, 150, 96) cho thấy hình ảnh ở 96 DPI cho kết quả tốt nhất từ tesseract nhưng vẫn không thỏa đáng.
Bây giờ tôi nghĩ sẽ hỏi lời khuyên bộ lọc nào sẽ nâng cao hình ảnh này để xử lý OCR.
Tôi có thể sử dụng fantemagick, hoặc numpy / scipy / ndimage