Tôi có thể khôi phục hình ảnh gốc của văn bản sau khi xử lý bởi OCR chuyên nghiệp không?


1

Ai đó đã sử dụng (có thể) tính năng Adobe Professional OCR để OCR một tệp pdf được quét. Kết quả OCRed có một số lỗi và nó đã thêm kết quả văn bản trở lại hình ảnh văn bản trong tệp pdf, bao gồm hình ảnh văn bản thực tế, vì vậy tôi không thể nói chính xác cái mà hình ảnh văn bản hiển thị

Tôi có thể khôi phục hình ảnh gốc của văn bản sau khi xử lý bởi OCR chuyên nghiệp không? Cảm ơn.

Câu trả lời:


2

Bạn có thể dễ dàng liệt kê hoặc trích xuất tất cả hình ảnh từ PDF (hoặc chỉ từ một phạm vi trang cụ thể) bằng công cụ dòng lệnh pdfimages. Công cụ này có sẵn cho Linux, Unix, Mac OS X và Windows.

 pdfimages -list -f 3 -l 7 my.pdf

Lệnh trên liệt kê tất cả các hình ảnh từ trang 3 ( -f"đầu tiên") đến trang 7 ( -l"cuối cùng") mà không trích xuất chúng.

Các phiên bản gần đây nhất pdfimagesthậm chí bao gồm thông tin bổ sung, chẳng hạn như kích thước chiều rộng / chiều cao của hình ảnh, tỷ lệ nén, không gian màu, độ sâu bit, mã hóa hình ảnh và độ phân giải kết quả so với kích thước của trang PDF:

kp@mbp:> pdfimages -list -f 3 -l 7 porsches-a4.pdf
 page   num  type   width height color comp bpc  enc interp  object ID x-ppi y-ppi size ratio
 --------------------------------------------------------------------------------------------
    3     0 image    1920  1440  rgb     3   8  jpeg   no        20  0   175   175  182K 2.2%
    4     1 image    1920  1440  rgb     3   8  jpeg   no        26  0   175   175  130K 1.6%
    5     2 image    1920  1440  rgb     3   8  jpeg   no        32  0   175   175 92.1K 1.1%
    6     3 image    1920  1440  rgb     3   8  jpeg   no        38  0   175   175  233K 2.9%
    7     4 image    1920  1440  rgb     3   8  jpeg   no        44  0   175   175  238K 2.9%

Để trích xuất hình ảnh của một trang cụ thể dưới dạng JPEG, hãy sử dụng -jtham số:

kp@mbp:> pdfimages -j -f 11 -l 11 porsches-a4.pdf prefix

Điều này sẽ trích xuất tất cả các hình ảnh từ trang 11. Tên của họ sẽ là prefix-000.jpg, prefix-001.jpg, prefix-002.jpg, vv

LƯU Ý: Đôi khi trích xuất trực tiếp dưới dạng JPEG là không thể. pdfimagesvẫn sẽ trích xuất chúng, mặc dù trong PNMhoặc PPMđịnh dạng. Bạn có thể dễ dàng chuyển đổi chúng thành PNG hoặc JPEG bằng cách sử dụng convertlệnh của ImageMagick :

 convert some.ppm some.png
 convert some.pnm some.jpg

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.