Làm cách nào để chuyển đổi PDF được quét thành PDF bằng văn bản


36

Tôi đã quét khoảng 80 trang thành pdf màu xám (định dạng hình ảnh). Kích thước cuối của tệp là khoảng 70 MB, rất lớn.

Bây giờ tôi đang tìm kiếm một phương pháp để chuyển đổi tệp PDF dựa trên hình ảnh thang độ xám thành một tệp PDF dựa trên văn bản đen / trắng đơn giản.

Tôi đã thực hiện nhiều nỗ lực gsnhưng không thành công (chỉ phục hồi vài phần trăm). Nếu bất kỳ chuyên gia có một số ý tưởng, xin vui lòng cho tôi biết.


1
Bạn cần một số công cụ OCR. Hãy xem Tesseract ubuntuforums.org/showthread.php?t=880471
Nikita U.

4
Nếu bạn quan tâm đến việc giữ nguyên hình ảnh PDF và thêm văn bản vào đó, hãy xem câu hỏi Thêm thông tin OCR vào tệp PDF .
colan

Nếu bạn có thể đăng một liên kết đến (ví dụ) ví dụ một trang, chúng tôi có thể kiểm tra các giải pháp ...
Rmano

Đây không phải là một giải pháp OCR nhưng Askubfox.com / a / 887/16395 giúp ích rất nhiều (mặc dù 72dpi là một chút ở phía thấp, tôi có kết quả tốt hơn với 120).
Rmano

YAGF có hoạt động đúng với Ubuntu 16.04 không? Nếu tôi tải một hình ảnh hoặc tài liệu pdf, chương trình sẽ hủy bỏ mà không có bất kỳ thông báo lỗi nào. Theo Ubuntu 14.04 tôi không gặp vấn đề gì. H.Roos
Hubert Roos

Câu trả lời:


25

gImageReader là một giao diện GTK + đơn giản tesseract-ocr.

sudo apt-get install gimagereader tesseract-ocr

xin lỗi vì văn bản tiếng Đức


4
Bạn cũng nên cài đặt ngôn ngữ của tài liệu để cải thiện OCR, bằng sudo apt-get install tesseract-ocr-[lang], thay thế langbằng mã ngôn ngữ, như tiếng deuĐức, portiếng Bồ Đào Nha, v.v.
estibordo

1
Phần mềm này là xấu xí. Khả năng sử dụng là dưới không. Mặc dù nó cố gắng thực hiện công việc, nhưng nó không thể đọc các bảng giống như bảng tính. Chỉ cần bỏ lỡ các trang có chứa chúng.
Max Yudin

9

Bạn có thể dùng thử pdfoc:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

Để thực hiện cú pháp là

 pdfocr -i input.pdf -o output.pdf

trong đó input.pdftên của tệp đầu vào và output.pdftệp đầu ra.

Theo mặc định, nó sử dụng Tesseract. Để cài đặt nó:

 sudo apt-get install tesseract-ocr

pdfoc tạo một lớp văn bản nhúng.


Tuyệt quá! Thật thú vị sau khi thực hiện các bước trên tệp hiện có thể tìm kiếm được trong Adobe Acrobat DC nhưng không có trong Bản xem trước.
lukeaus

2
Kho lưu trữ này không hỗ trợ xenial
Max N

Bạn có thể thử cài đặt một phiên bản pdfoc cũ, nếu bạn cài đặt phiên bản wily trên xenial thì nó hoạt động tốt. Để thực hiện việc này, hãy thêm "deb ppa.launchpad.net/gezakovacs/pdfoc/ubfox wily main" và "deb-src ppa.launchpad.net/gezakovacs/pdfoc/ub Ubuntu wily main" vào /etc/apt/source.list "sudo apt update" và "sudo apt-get install pdfoc"
rafmunozf

2
pdfoc là một tập lệnh tự động hóa quy trình sau: 1. Chia tệp PDF thành các trang riêng bằng pdftk 2. Trích xuất dữ liệu hình ảnh bằng pdfimages 3. Thực hiện OCR (nhận dạng ký tự quang học) bằng cách sử dụng chữ hình nêm 4. Đưa văn bản được phát hiện trở lại vào Tệp PDF bằng hoc2pdf 5. Hợp nhất các tệp bằng pdftk. (trích dẫn từ ubuntuforums.org/showthread.php?t=1456756 )
Tommy Trussell

3
pdfsandwich

Nó tải tesseract và những người khác khi cài đặt. Đó là một giải pháp một bước dễ dàng và có thể được viết kịch bản. Nó có thể sử dụng hocr2pdfđể tạo một văn bản pdf đơn giản, nhưng nó chưa sẵn sàng cho thời gian chính ... Mặc định sử dụng tesseract và tạo một pdf: "kẹp" hình ảnh + văn bản bên dưới.

Hình ảnh nhúng có thể được loại bỏ bằng các lệnh như:

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

nhưng văn bản bị ẩn, vì vậy nó trông giống như một trang trống.

Tải PDF vào LibreOffice Drawđể lộ văn bản và hình ảnh có thể được xóa bằng tay.


Chúng tôi làm gì về các vấn đề bảo mật của fantemagick / ghostscript dẫn đến các not authorizedlỗi identify-im6.q16như thế này: fantemagick - convert: không được ủy quyền aaaa@ error / constolarship.c / ReadImage / 453 - Stack Overflow
nealmcb

1

Đối với giao diện đồ họa được đề xuất bởi @AB trên Ubuntu 14.04, bạn nên làm theo:

ocr tesseract trên Ubuntu 14.04

hoặc dù sao, thêm vào danh sách kho lưu trữ:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

trước khi nó hoạt động:

sudo apt-get install gimagereader


-1

Trong tệp pdf của bạn, nhấp chuột phải và lưu từng trang dưới dạng hình ảnh (hoặc tìm một số công cụ tự động thực hiện tất cả các trang)

Mở trung tâm phần mềm Ubuntu. Tìm kiếm tesseract. Điều này sẽ tìm thấy YAGF mà bạn nên cài đặt. Trong YAGF, nhấp vào Tệp -> Mở hình ảnh và tải hình ảnh của bạn. Sau đó bấm vào Tệp -> Nhận biết.

Tôi đã có độ chính xác 100% trong bài kiểm tra đầu tiên của mình.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.