Lọc hình ảnh loại nửa tấn tinh tế để xử lý OCR


10

Tôi có một tài liệu PDF được quét mà tôi muốn thêm lớp văn bản ẩn, vì vậy tôi có thể lập chỉ mục tài liệu. Tôi đã sử dụng thiết bị đầu ra tiff đen và trắng (tiffg4) để trích xuất các trang dưới dạng hình ảnh tiff và đây là ví dụ về hình dạng của chúng:

nhập mô tả hình ảnh ở đây

Xử lý hình ảnh này với tesseract, không cho kết quả tốt.
Thay đổi đầu ra ghostscript DPI (600, 300, 150, 96) cho thấy hình ảnh ở 96 DPI cho kết quả tốt nhất từ ​​tesseract nhưng vẫn không thỏa đáng.

Bây giờ tôi nghĩ sẽ hỏi lời khuyên bộ lọc nào sẽ nâng cao hình ảnh này để xử lý OCR.

Tôi có thể sử dụng fantemagick, hoặc numpy / scipy / ndimage

Câu trả lời:


9

Những gì bạn thực sự yêu cầu có lẽ là một số hoạt động hình thái như sự giãn nở theo sau là xói mòn. Điều này được gọi là hoạt động đóng cửa . Có thể trong trường hợp của bạn - chỉ cần giãn nở có thể là tốt.

Có một câu hỏi tương tự được hỏi trước đây - có thể giúp với các khía cạnh khác.

Chuyển đổi hình ảnh đơn sắc (1 bit đen trắng)

Làm cách nào để tôi xây dựng lại văn bản từ một hình ảnh chỉ bằng các hoạt động hình thái?


2

bạn có thể loại bỏ điều này bằng bộ lọc thông thấp. điều đó được thực hiện trong không gian tần số hoặc chỉ lấy (sự khác biệt) của gaussian của hình ảnh.

gaussian low-pass, sau đó sự khác biệt của gaussian để làm sắc nét

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.