Lọc hình ảnh loại nửa tấn tinh tế để xử lý OCR

10

Tôi có một tài liệu PDF được quét mà tôi muốn thêm lớp văn bản ẩn, vì vậy tôi có thể lập chỉ mục tài liệu. Tôi đã sử dụng thiết bị đầu ra tiff đen và trắng (tiffg4) để trích xuất các trang dưới dạng hình ảnh tiff và đây là ví dụ về hình dạng của chúng:

nhập mô tả hình ảnh ở đây

Xử lý hình ảnh này với tesseract, không cho kết quả tốt.
Thay đổi đầu ra ghostscript DPI (600, 300, 150, 96) cho thấy hình ảnh ở 96 DPI cho kết quả tốt nhất từ tesseract nhưng vẫn không thỏa đáng.

Bây giờ tôi nghĩ sẽ hỏi lời khuyên bộ lọc nào sẽ nâng cao hình ảnh này để xử lý OCR.

Tôi có thể sử dụng fantemagick, hoặc numpy / scipy / ndimage

image-processing ocr

— zetah
nguồn

9

Những gì bạn thực sự yêu cầu có lẽ là một số hoạt động hình thái như sự giãn nở theo sau là xói mòn. Điều này được gọi là hoạt động đóng cửa . Có thể trong trường hợp của bạn - chỉ cần giãn nở có thể là tốt.

Có một câu hỏi tương tự được hỏi trước đây - có thể giúp với các khía cạnh khác.

Chuyển đổi hình ảnh đơn sắc (1 bit đen trắng)

Làm cách nào để tôi xây dựng lại văn bản từ một hình ảnh chỉ bằng các hoạt động hình thái?

— Mehan
nguồn

2

bạn có thể loại bỏ điều này bằng bộ lọc thông thấp. điều đó được thực hiện trong không gian tần số hoặc chỉ lấy (sự khác biệt) của gaussian của hình ảnh.

— Christoph Rackwitz
nguồn