Làm cách nào tôi có thể gỡ bỏ và cắt các tệp PDF được tạo từ các trang được quét * tự động *? [bản sao]


13

Có thể trùng lặp:
Phần mềm miễn phí nào tôi có thể sử dụng để khử các hình ảnh được quét

Tôi có một số tệp PDF được tạo thành từ các lần quét trang sách. Các bản quét được thực hiện từ hai trang cùng một lúc và một số bản quét này bị lệch, làm cho văn bản có vẻ hơi nghiêng.

Tôi đang tìm kiếm một công cụ có thể cho phép tôi thực hiện tối ưu hóa tự động bằng cách bỏ qua các lần quét mà không mất khả năng đọc. Tôi đã tìm thấy phần mềm GPL Briss để cắt các bản quét để có tỷ lệ trang 1: 1 thay vì 2: 1, nhưng tôi không có bất kỳ công cụ nào để loại bỏ các trang.

Tôi tình cờ phát hiện ra một công cụ mã nguồn mở khác có vẻ hoàn hảo cho những gì tôi muốn làm, nhưng công cụ đó chỉ là Linux và nó không hoạt động trực tiếp trên các tệp PDF.

Bất kỳ gợi ý được đánh giá cao.


1
@random: Tại sao câu hỏi này đã bị đóng ?? Tại sao chủ đề này nên thu hút 'tranh luận, tranh luận, bỏ phiếu hoặc thảo luận mở rộng'?!?
Kurt Pfeifle

1
"Tìm kiếm một công cụ" là việc bỏ phiếu khá nhiều cho các dịch vụ dẫn đến lý do gần gũi không mang tính xây dựng @kur
ngẫu nhiên

1
@random: Câu hỏi này đã khiến tôi thực hiện một số nghiên cứu về chủ đề này và tôi đã tìm thấy một số lựa chọn thú vị để thuyết phục. Điều thú vị nhất là sử dụng ImageMagick cho việc này, và nó có vẻ đơn giản đến bất ngờ. Thật không may, việc đóng của bạn không cho phép tôi đăng câu trả lời của mình.
Kurt Pfeifle

@random: Bây giờ tôi đã chỉnh sửa câu hỏi một chút. Hy vọng rằng bây giờ nó phù hợp hơn với ý nghĩa của bạn về 'tính xây dựng'.
Kurt Pfeifle

@random: Ok, 'đóng như là bản sao' được tôi chấp nhận tốt hơn trong trường hợp này.
Kurt Pfeifle

Câu trả lời:


9

Có một cái nhìn tại deskew . Đây là một công cụ dòng lệnh. Tải xuống * zip dường như bao gồm các tệp nhị phân cho Windows, MacOSX và Linux.

Giấy phép là MPL ​​(Mozilla) hoặc LPGL (GNU), bất cứ điều gì bạn thích.

Hạn chế duy nhất đối với bạn dường như là nó không tiêu thụ tệp PDF, chỉ có hình ảnh PNG và TIFF (AFAICS). Điều đó có nghĩa là bạn sẽ phải thiết lập quy trình làm việc của s.th. giống:

 PDF.orig -> PNG.orig -> PNG.deskewed -> PDF.deskewed

Tôi chưa tự mình kiểm tra (tôi), tôi vừa ghé qua trang web gần đây và đánh dấu nó.


deskewđã quản lý để sửa méo liên quan đến xoay trong quá trình chạy thử của tôi nhưng không may nó đã giới thiệu một đường màu xám mỏng ở vị trí của đường viền ảnh gốc. Để thoát khỏi đường viền màu xám, tôi cắt các hình ảnh với -extenttùy chọn mogrify. Tôi chỉ thử nghiệm trên OS X, có thể hành vi sai này là dành riêng cho nền tảng.
Stefan Schmidt

deskewhoạt động thực sự tốt. Công việc của tôi là như thế này: pdfimages -all <pdf> my_imagesJBIG2 -s -p -v my_images* > outputpdf.py output > deskewed.pdfNếu viền đen (kết quả của hoạt động deskewing) làm phiền bạn, một số chế biến với ImageMagick có thể là cần thiết, như được đề xuất bởi @StefanSchmidt
Ông Tao

5

Oh, hãy để tôi thêm một câu trả lời. Tôi chỉ nhớ netpbm . Không sử dụng nó trong nhiều năm, nhưng tôi nghĩ rằng tôi nên có một cái nhìn mới mẻ ...

netpbm là một bộ công cụ rất mạnh mẽ cho dòng lệnh để thao tác với hình ảnh đồ họa. Nó vận chuyển gần 300 công cụ riêng biệt. Nó bao gồm các bộ chuyển đổi cho khoảng 100 định dạng đồ họa.

Và nó cũng có một công cụ dòng lệnh có thể xoay hình ảnh:

pnmrotate

Và nó có một công cụ khác cố gắng khám phá góc của hình ảnh được xoay:

pamtilt

pamtilttrả về một số lượng nổi của dự đoán xoay hình ảnh của nó. Vì vậy, việc tự động khử hình ảnh nên trong tầm tay. Một kịch bản shell có thể được viết để làm điều đó. Nó sẽ yêu cầu các bước khác nhau:

  1. Chuyển đổi trang PDF thành định dạng hình ảnh phù hợp với netpbm với sự trợ giúp của Ghostscript.
  2. Sử dụng pamtiltđể tự động khám phá góc nghiêng của hình ảnh.
  3. Sử dụng pnmrotateđể khử hình ảnh.
  4. Chuyển đổi lại hình ảnh thành PDF.

Nếu bạn cung cấp cho tôi quyền truy cập vào một mẫu nhỏ các tệp PDF của bạn, tôi có thể thử và đưa ra một tập lệnh shell để hoàn thành kỳ tích.


(Tôi đang tự hỏi rất nhiều rằng [netpbm] không có thẻ ở đây trên superuser + stackoverflow.)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.