Chuyển đổi hàng loạt pdf của t pdf có thể tìm kiếm


3

Tôi đang tìm cách chuyển đổi hàng ngàn pdf thành pdf có thể tìm kiếm. Tôi đã sử dụng một chương trình có tên "Trợ lý tạo PDF" đi kèm với phần mềm ecopy của Nuance . Tuy nhiên, bạn không thể chọn một thư mục, bạn phải vào từng thư mục con, chọn các tệp để chuyển đổi và sau đó chuyển đến thư mục tiếp theo.

Một cách khác để chuyển đổi một số lượng lớn pdf thành pdf có thể tìm kiếm là gì?

Không có bất kỳ đề nghị. Chắc chắn phải có một cách để chuyển đổi hàng loạt pdf (?).


Tôi không thể tìm thấy hướng dẫn sử dụng trên trang web. Bạn có thể sử dụng ecopy từ dòng lệnh, hoặc bạn phải sử dụng GUI? Nếu bạn có thể gọi nó từ dòng lệnh, thì bạn có thể dễ dàng tạo một tập lệnh đi qua tất cả các tài liệu của bạn và gọi ứng dụng để chuyển đổi từng tập lệnh.

Bạn phải sử dụng GUI. Ít nhất, tôi chưa tìm được cách gọi nó từ dòng lệnh. Nếu ai biết cách sử dụng nó từ dòng lệnh, hãy cho tôi biết. Cảm ơn!

Có hướng dẫn sử dụng ecopy hoặc thông tin kỹ thuật khác trực tuyến ở đâu đó không? Chức năng dòng lệnh, nếu nó tồn tại, có lẽ sẽ được mô tả ở đó. Nếu bạn có thể cho tôi một con trỏ, tôi sẽ xem xét.

Không phải là tôi đã tìm thấy.

Câu trả lời:


3

Sử dụng tệp CPYCONVERTER.EXE trong thư mục BIN làm dòng lệnh (Ký tự đại diện được hỗ trợ trong eCopy Ver.9-Paperworks) Đây là dành cho Máy tính để bàn 8,5 eCopy.

Command Line Cpy Converter Version 8.5 (Build 0.116)
 Copyright c 1992 - 2004. All rights reserved.

 Converts CPY to CPY, CPY to TIF or TIF to CPY

Usage:
 cpyconverter.exe [-?] -S=<source path> -D=<dest path> [-P] [-E] [-Q] [-B] [-O]
[-T3/T4/TC/C/U]

Note:
 Wildcards are not supported.  Full paths must be used for source and destinatio
n

Switches:
--------------------
-?                      : This menu
-Q                      : Turn off logging.
-P                      : Converter pauses after conversion.
-E                      : Converter pauses if there is an error.
-B                      : Converter burns-in Blackout/Whiteout markups (if appli
cable).
-O                      : Converter OCRs document and creates searchable text (i
f applicable).
-S="<SOURCE PATH>"      : The path of the file to convert.
-D="<DESTINATION PATH>" : The path of the newly converted file.
-P=<PASSWORD>           : Password for encrypting and decrypting documents.
--------------------
 * If the source document is encrypted CPY converter will attempt to decrypt it
to the destination document with the supplied password.
 * If the source document is not encrypted CPY converter will attempt to encrypt
 the destination document using the supplied password.
 * Please note you cannot encrypt/decrypt tif documents.

-<Conversion Type>      : The type of conversion to be done(T3, T4, TC, C, U)
--------------------
* T4 - Convert CPY to TIF Group4
* T3 - Convert CPY to TIF Group3
* C  - Convert TIF(Any group) to CPY
* U  - Convert CPY to CPY

Ex.1 cpyconverter.exe -S="C:\My Dir\test.tif" -D="C:\My Dir\test.cpy" -C
Convert Tiff to cpy

Ex.2 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T3
Convert Cpy to Tif Group 3

Ex.3 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T4
Convert Cpy to Tif Group 4

0

Trên linux

Trước tiên, bạn cần OCR những PDFcái chưa phải là OCR Tôi đã viết một cách khá đơn giản để tìm kiếm tất cả các tệp pdf không thể chỉnh sửa grepvà OCR chúng.

Tôi nhận thấy nếu một pdftập tin không có bất kỳ phông chữ nào thì nó thường không thể tìm kiếm được. Vì vậy, biết điều này chúng ta có thể sử dụng pdffonts.

2 dòng đầu tiên pdffontslà tiêu đề bảng, vì vậy khi một tệp có thể tìm kiếm được có nhiều hơn hai dòng đầu ra, biết điều này chúng ta có thể tạo:

gedit check_pdf_searchable.sh

sau đó dán cái này

#!/bin/bash 
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
pypdfocr "$1"
fi

sau đó làm cho nó thực thi

chmod +x check_pdf_searchable.sh

sau đó liệt kê tất cả các pdf không thể tìm kiếm trong thư mục:

ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}

hoặc trong thư mục và các thư mục con của nó:

tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}

0

Cách dễ nhất là sử dụng api ocr trực tuyến . Api ocr.space bao gồm hỗ trợ để tạo các tệp PDF có thể tìm kiếm . Dịch vụ này có một cấp miễn phí 25.000 chuyển đổi mỗi tháng.

Sau đó, bạn có thể tự động hóa việc này với Powershell, đợt hoặc bất kỳ ngôn ngữ kịch bản lệnh nào khác. Ví dụ: kích hoạt chuyển đổi từ lô với cURL:

curl -H "apikey:helloworld" --form "file=@yourpdf.PDF" --form "language=eng" -form "isOverlayRequired=true" https://api.ocr.space/Parse/Image
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.