Làm cách nào tôi có thể xóa nền trang màu xám của quá trình quét tài liệu PDF trong khi giữ nguyên văn bản? (Binarization)


9

PDF của tôi chứa 600 trang với hình ảnh của văn bản. Nó có 2 lớp .

  • Lớp 1: Ảnh màu nền

  • Lớp 2: Hình ảnh văn bản

Tôi muốn xóa tất cả các lớp hình ảnh nền trong toàn bộ tệp PDF như trong hình.

nhập mô tả hình ảnh ở đây

Bạn có thể gợi ý cho tôi bất kỳ phần mềm / công cụ nào không?

nhập mô tả hình ảnh ở đây


Bạn đang sử dụng bản phát hành Ubuntu nào?
Mitch

Ubuntu 13.10, 64-bit.
Raghu G

Mô tả câu hỏi cập nhật.
Raghu G

Câu trả lời:


9

Tổng quat

Những gì bạn đang tìm kiếm là các công cụ như Scan Tailorunpraft có khả năng Threshold , Despeckling và Noise Removal . Cả hai công cụ đều hoạt động với hình ảnh thay vì tệp PDF nhưng bạn có thể dễ dàng chuyển đổi giữa các định dạng khác nhau mà các ứng dụng này sử dụng và PDF bằng cách sử dụng các công cụ được mô tả ở cuối câu trả lời này.

Quét thư

Bạn có thể tìm thấy một video hướng dẫn ở đây . Tài liệu mở rộng hơn có sẵn trên wiki chính thức . Bạn có thể sẽ quan tâm nhất đến trang ở chế độ đầu ra đen trắng và cài đặt bộ lọc .

Giấy nháp

Tôi chưa làm việc với unpaperchính mình. Theo những gì tôi hiểu, nó có nhiều tính năng hơn ScanTailor nhưng cũng khó để làm chủ hơn nhiều.

Không có giao diện GUI và bạn sẽ phải dựa vào các công tắc dòng lệnh để hoàn thành công việc. Mặt khác, điều này có nghĩa là các chuyển đổi có unpaperthể dễ dàng được tự động hóa bằng các tập lệnh.

Bạn có thể tìm thấy một số ví dụ về kịch bản liên quan đến việc chuyển đổi quét sang đen trắng và xóa nền ở đây .


Một số công cụ hữu ích khi làm việc với unapers và ScanTailer

Tôi không có đủ thời gian để viết một hướng dẫn đầy đủ về ScanTailor và unpraft¹ nhưng đây là một số gợi ý liên quan đến việc chuyển đổi giữa .pdfvà các định dạng hình ảnh được hỗ trợ bởi các công cụ này:

  • Bạn có thể sử dụng pdfimagesđể chuyển đổi các tài liệu PDF thành .ppmcác tệp trang đơn , có thể đọc được unpaper.

    Ví dụ sử dụng:

    pdfimages *.pdf ./extracted-images
  • ScanTailor không lấy .ppmcác tệp làm đầu vào. Bạn sẽ phải chuyển đổi chúng sang định dạng khác như mất .pngtrước. mogrifytrong bộ imagemagickcông cụ có thể làm điều này cho bạn.

    Ví dụ sử dụng:

    mogrify -format png *.ppm
  • Định dạng đầu ra của ScanTailor và unpraft là .tiffcác tệp trang đơn . Để chuyển đổi chúng trở lại, .pdftôi sẽ đề nghị sử dụng tiffcptiff2pdf.

    Ví dụ sử dụng:

    tiffcp *.tiff all.tiff
    tiff2pdf -F -p A4 -z -o Document.pdf all.tiff

Cài đặt

Lệnh này sẽ cài đặt tất cả các công cụ được đề cập ở trên:

sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

: Đối với bất kỳ ai đang đọc điều này, xin vui lòng biên dịch một câu trả lời rộng hơn dựa trên ScanTailor và / hoặc không có giấy tờ.


Scantailer hoạt động nhưng trên các tập tin pdf. Bạn sẽ phải chuyển nó sang một số định dạng hình ảnh đầu tiên.
Làm

@ToDo Có, như đã chỉ ra trong câu trả lời :).
Glutimate

Tôi nhận ra bây giờ. Tốt hơn là tổ chức câu trả lời sao cho tất cả thông tin trên mỗi chương trình nằm trong một khối.
Làm

@ToDo Lý do ban đầu tại sao tôi đặt các công cụ trong phần spearate là vì chúng có liên quan đến cả giấy tờ và Scantailor. Bạn nói đúng, tuy nhiên, nó có một chút không có tổ chức. Tôi nghĩ rằng nó sẽ tốt hơn bây giờ
Glutimate

3

Tôi chỉ tìm thấy một giải pháp rất đơn giản:

  • cài đặt gscan2pdf.

  • Mở gscan2pdfvà nhập PDF.

  • công cụ-> ngưỡng. Mặc định 80% hoạt động tốt với tôi.

  • lưu tệp PDF ở một vị trí khác.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.