Làm cho PDF có thể tìm kiếm (OCR) hiện có thông qua dòng lệnh / tập lệnh

21

Tôi đang tìm kiếm một công cụ tập lệnh ngoại tuyến giúp tệp PDF hiện có có thể tìm kiếm được bằng cách chạy OCR trên nó, thay thế tệp không thể tìm kiếm ban đầu bằng phiên bản có thể tìm kiếm và có thể chạy không giám sát.

Ví dụ: www.pdfscannerapp.com - thực hiện chính xác những gì tôi cần, nhưng đó chỉ là GUI - không có kịch bản.

Tôi biết rằng Evernote làm cho các tệp PDF có thể tìm kiếm được, nhưng chúng chỉ có thể tìm kiếm được khi ở trong Evernote.

Tôi không tìm kiếm OCR hoàn hảo, thậm chí một OCR vừa phải chấp nhận được là tốt, nhưng tôi thích một tiện ích nhỏ hơn là gói phần mềm cồng kềnh.

(Tôi biết một câu hỏi tương tự nhưng khác nhau trên AD: Tìm kiếm phần mềm để quét hoặc chuyển đổi sang PDF có thể tìm kiếm và có thể ký - tuy nhiên, tôi không cần phải ký hoặc điền vào các tệp PDF và yêu cầu của tôi là giải pháp có thể được script)

CHỈNH SỬA:

1) Một số tiện ích cho phép trích xuất văn bản có cấu trúc, tuy nhiên để được trích xuất, văn bản phải ở đó; Tôi chủ yếu đề cập đến các tệp PDF được gói bitmap, như trường hợp với các tệp PDF đơn giản được tạo bởi các máy quét.

2) Tôi không nhất thiết phải tìm kiếm một giải pháp miễn phí và tôi sẽ rất vui khi trả tiền cho một tiện ích tốt, chỉ cần làm những gì tôi cần, nhưng tôi không tìm kiếm các ứng dụng cồng kềnh với một triệu tính năng bao gồm tính năng OCR nhưng có chi phí không biện minh cho việc mua chúng chỉ cho chức năng OCR.

3) Như đã nói ở trên, tôi không tìm kiếm OCR hoàn hảo, chỉ là một OCR vừa phải được chấp nhận. Thật không may, theo kinh nghiệm của tôi, tesseract thực sự nằm dưới ngưỡng đó. Tôi xác định "chấp nhận vừa phải" một OCR có thể, ví dụ, OCR một hóa đơn tiện ích để ít nhất số tài khoản (số khách hàng) được nhận dạng chính xác.

EDIT: "có thể tạo tập lệnh" hoặc "có thể tự động hóa", nghĩa là có thể được kích hoạt tự động và chạy không cần giám sát mà không cần đầu vào của con người.

pdf ocr

— magma
nguồn

2

... không biết làm thế nào cứng nó sẽ là để làm nhưng Tesseract OCR thường được đề cập code.google.com/p/tesseract-ocr và OCR trong Unix.SE .

— hhh

1

Có một câu hỏi tương tự ở đây , câu trả lời có phù hợp với yêu cầu của bạn không?

— nohillside

1

Bạn đề cập đến OCR. Yêu cầu của bạn có bao gồm xử lý hình ảnh trong PDF hoặc tệp PDF được quét không? Đối với các tệp có văn bản bên trong chúng dưới dạng mô tả đơn giản, thì trình chuyển đổi PDF sang văn bản như "PDF2Text Pilot" có thể phù hợp với bạn.

— Tim B

@patrix Tôi đang tìm kiếm một tiện ích nhỏ hơn, không nhất thiết phải miễn phí nhưng trong một phạm vi giá khác nhau. Tuy nhiên, đó là một giải pháp khả thi, cảm ơn bạn.

— magma

@TimothyButler thật không may, tôi đang xử lý các tệp PDF được quét (hình ảnh). Nhưng, gợi ý tốt đẹp, cảm ơn bạn.

— magma

5

Tôi không hoàn toàn rõ ràng những yêu cầu của bạn là gì để có thể "viết kịch bản" này từ "dòng lệnh".

Nếu bạn đang nói về tự động hóa, thì điều đó là có thể với bất kỳ số lượng tiện ích.

ABBYY FineReader Express + Maestro bàn phím + Hazel

Tôi sử dụng ABBYY FineReader Express + Bàn phím Maestro + Hazel như vậy:

Hazel theo dõi một thư mục nhất định cho mọi tệp PDF mới
nếu tìm thấy tệp PDF, nó sẽ được mở trong "ABBYY FineReader Express"
Bàn phím Maestro sau đó tự động hóa quá trình biến PDF thành PDF có thể tìm kiếm (OCR) và lưu tệp vào một thư mục khác.

Bây giờ, nếu bạn chưa sở hữu Hazel và Bàn phím Maestro, chi phí ban đầu của bạn sẽ tăng khá nhanh (mặc dù tôi phụ thuộc vào cả hai nên tôi coi chúng là một món hời).

PDFPen + AppleScript + Tác vụ thư mục

Bạn có thể làm điều gì đó tương tự với PDFPen (hoặc PDFPenPro) và các hành động thư mục và AppleScript. Xem https://gist.github.com/prenagha/1355037 để biết một ví dụ.

Marco Arment đã làm một cuộc khảo sát về các ứng dụng OCR cho Mac và thấy rằng PDFPen có kết quả tuyệt vời và dễ dàng tự động hóa.

Một tìm kiếm google cho "PDFpen applescript OCR" sẽ đưa ra một số lựa chọn thay thế.

— TJ Luoma
nguồn

TJ trả lời tốt. Hazel thật tuyệt vời, tôi sở hữu nó và tôi thích sử dụng nó vô cùng. Tôi hiện không sở hữu maestro abbyy / bàn phím, nhưng Hazel + PDFPen là một kết hợp tuyệt vời. Nhìn chung, trong khi tất cả các câu trả lời ở đây nói chung là rất tốt và phục vụ các đối tượng hơi khác nhau, tôi nghĩ rằng Hazel + PDFPen phù hợp với vấn đề ban đầu. Được chấp nhận.

— magma

+1 trên ABBYYFineReader Express, dễ dàng là OCR tốt nhất hiện tại và tôi đã trải qua gần một chục dự án cho riêng mình

— TechZen

12

Những gì bạn muốn là Tesseract OCR. Đó là một OCR mã nguồn mở được Google duy trì và hỗ trợ nhiều nền tảng khác nhau. Nó cũng có một giao diện dòng lệnh gốc. Đó chính xác là những gì bạn đang tìm kiếm và có sẵn từ dự án cổng Mac cũng như homebrew .

Trang chủ dự án: https://github.com/tesseract-oc

Cách cài đặt trên OS X: http://blog.matt-swain.com/post/26419042500/installing-tesseract-oc-on-mac-os-x-lion

Ví dụ sử dụng: tesseract -l eng input.pdf output

— Daniel Kocevski
nguồn

Dự án đẹp. Trong các thử nghiệm của tôi, sự công nhận là kém, nhưng tôi chắc chắn rằng điều đó phụ thuộc vào khả năng của tôi để điều chỉnh nó. Tôi đang tìm kiếm một giải pháp lười hơn, nhưng đây có thể là một lựa chọn tốt đặc biệt nếu bạn muốn kiểm soát nhiều hơn và có thể dành thời gian cho nó.

— magma

tesseract không nhận được rất tốt so với các ứng dụng độc quyền hiện tại. Đặc biệt, nó có vấn đề với mã hóa và toán học, thường tạo ra rất nhiều ký tự Hy Lạp.

— TechZen

Phiên bản OS X có cho phép nhập liệu PDF không? Phiên bản windows không.

— Doug

8

Tuyên bố miễn trừ trách nhiệm: KHÔNG PHẢI GIẢI PHÁP OCR (nhưng câu trả lời này vẫn hữu ích để trích xuất văn bản từ pdf)

Có một dự án Quỹ phần mềm Apache có tên là Apache Tika :

Bộ công cụ phát hiện và trích xuất siêu dữ liệu và nội dung văn bản có cấu trúc từ các tài liệu khác nhau bằng các thư viện trình phân tích cú pháp hiện có

Họ hỗ trợ trích xuất văn bản PDF bằng PDFBox :

cho phép tạo tài liệu PDF mới, thao tác với các tài liệu hiện có và khả năng trích xuất nội dung từ tài liệu. Apache PDFBox cũng bao gồm một số tiện ích dòng lệnh

Và gần đây họ cũng đã thêm hỗ trợ cho OCR (thông qua Tesserac)

Đối với giải pháp dựa trên văn bản, PDFBox rất đơn giản để trích xuất văn bản từ PDF:

Tải xuống pdfbox-appgói từ https://pdfbox.apache.org/doads.html
chạy ExtractTextlệnh trên nó:

java -jar pdfbox-app-xyzjar ExtractText myNiceBook.pdf myNiceBook.txt

Nó cũng có một số tùy chọn tốt đẹp khác mà bạn có thể thấy trong tài liệu ExtractText .

— mèo brutus
nguồn

Chắc chắn là một tùy chọn tốt để trích xuất văn bản, nhưng tôi không thể thấy khả năng OCR.

— magma

1

@magma OCR có nghĩa là "nhận dạng ký tự quang học", chắc chắn có "khả năng OCR". Bây giờ bạn cần làm rõ: vấn đề của bạn là trích xuất văn bản từ hình ảnh có độ phân giải kém, chẳng hạn như được tạo bằng camera VGA, máy quét kém hoặc hình ảnh ở xa? Sau đó, vấn đề của bạn là khác nhau và đòi hỏi phải xem xét về mặt vật lý của những thứ như siêu phân giải. Xin vui lòng, hỏi câu hỏi cụ thể hơn và ngắn hơn để họ có thể được trả lời. Tôi đề nghị bạn đơn giản hóa câu hỏi này thành một tính năng bạn muốn. Nếu bạn muốn một cái gì đó nhiều hơn, hãy hỏi một câu hỏi mới.

— hhh

3

@hhh, có một điều là trích xuất văn bản từ tệp nhị phân (chẳng hạn như PDF) để có thể sử dụng và đọc được, bằng cách phân tích định dạng nhị phân. không có gì quang học về nó. văn bản đã có sẵn, những tiện ích này chỉ cần trích xuất nó để dễ nhìn vào mắt bạn. nhận dạng ký tự quang học khác nhau ở chỗ nó cố gắng nhận dạng các mẫu pixel trong bitmap và hiểu đủ về chúng để nó có thể tạo ra một đoạn văn bản tương ứng.

— magma

Điều này không trả lời câu hỏi ban đầu. AFAICT, pdfbox-app không làm OCR.

— Feuermurmel

5

Tôi muốn giới thiệu DEVONThink Pro Office . Nó là một ứng dụng tuyệt vời và có hỗ trợ AppleScript rất tốt. Than ôi chỉ có phiên bản 'Pro Office' có khả năng OCR - vì vậy bạn sẽ phải bỏ ra 100 bảng (150 đô la).

Sẽ là quá mức nếu bạn chỉ sử dụng nó cho OCR theo kịch bản - nhưng đó là một ứng dụng rất tốt.

[sửa] - ah chỉ cần đọc lại bài viết của bạn - nó chắc chắn sẽ là quá mức cần thiết!

Nếu bạn chỉ muốn OCR từ trình bao, bạn có thể thử nói chuyện với ABBY có giấy phép DEVON động cơ:

http://www.abbyy-developers.com/en:tech:samples:commandline_oc

— Diggory
nguồn

Mặc dù DEVONThink Pro Office trong OS X là quá mức cần thiết, nhưng điều đó thật thú vị. Nếu các nhà phát triển thiết kế nó trên OS X và iOS, thì nó có thể hoạt động (giữ cho UI đơn giản hơn) - bạn có biết điều gì như vậy không? Mặc dù vậy, ý tưởng tuyệt vời - vì vậy phiên bản Pro sẽ tự động thêm lớp OCR vào tất cả những thứ như ảnh chụp màn hình và PDF? Và người dùng bằng cách nào đó có thể "kịch bản" nó?

— hhh

2

Có - ứng dụng có Từ điển AppleScript tốt, trong số những thứ khác, cho phép bạn chuyển đổi hình ảnh được lưu trữ trong ứng dụng thành các tệp PDF có thể tìm kiếm.

— Diggory

Giả sử tôi chụp ảnh bằng iPhone hoặc ảnh chụp màn hình bằng OS X và đặt chúng vào thư mục ProjectA, DEVONThink có tự động thêm lớp OCR cho chúng ngay cả khi không chỉ định ngôn ngữ không? Giả sử bạn đặt chúng vào DropBox và sau đó tạo DEVONThink trong OSX để tự động kiểm tra thư mục, bạn có thể làm việc với nó qua OS X và iOS không? Đó là một khái niệm hấp dẫn nếu được thực hiện tốt ... +1

— hhh

Theo một cách nào đó, nó có vẻ giống như EverNote nơi EverNote thêm OCR nhưng không cho phép xuất khẩu như thế. Có thể xuất các dự án của bạn từ phần mềm này với OCR không? Nếu không, một số lib OCR rất đơn giản và sau đó một số lib phân tích ngôn ngữ có thể hoạt động tốt nhất. Có lẽ người kia là ABBY, tôi chưa biết.

— hhh

2

Nó có thể nhận ra bằng một số ngôn ngữ: i.stack.imgur.com/buDLI.png

— Diggory

5

Bạn có thể làm cho tệp PDF hiện tại của bạn có thể tìm kiếm được bằng cách chuyển đổi nó thành tệp văn bản. Bạn cần ít nhất là Imagemagick , Ghostscript (để chuyển đổi PDF) và công cụ Tesseract OCR.

Một số ví dụ dòng lệnh:

$ wget http://www.fmwconcepts.com/misc_tests/pdf_tests/test.pdf
$ convert -density 300 -depth 8 test.pdf test.png
$ tesseract test*.png test.txt
$ grep -i --color=auto the test*.txt
**The** details as told by surviving crew members, to **the** German publication Spiegel and published on ABC's

Điều này có thể được mở rộng hơn nữa cho nhu cầu của bạn.

Để cài đặt các công cụ cần thiết, trên OSX, bạn có thể cài đặt nó qua Homebrew :

brew install imagemagick jpeg libpng ghostscript tesseract

Trên Linux sử dụng apt-gethoặc yumthay vì brew.

Để biết thêm các công cụ OCR, hãy kiểm tra: OCR trên các hệ thống Linux

Liên quan:

— ken
nguồn

4

Một giải pháp có thể dễ dàng thực hiện và cung cấp pdf đầu ra với cùng chất lượng của tệp đầu vào cộng với kích thước hợp lý là OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF

— người dùng127022
nguồn

Nó trông giống như một giải pháp tuyệt vời, mặc dù tôi đã tìm thấy phụ trợ OCR, Tesseract, khá đáng thất vọng (hoàn toàn chắc chắn vì những hạn chế của riêng tôi trong việc định cấu hình chính xác).

— magma

Tôi yêu OCRmyPDF, xem câu trả lời của tôi dưới đây giải thích cách cài đặt và kéo và thả tự động hóa nó một cách nhanh chóng và không đau đớn với docker.

— thadk

1

Stackoverflow có các câu hỏi liên quan trong phân tích cú pháp PDF bao gồm những thứ như PDFBox và TIKA của Apache mà PDFBox sử dụng. Mã ruby dưới đây trích xuất văn bản từ PDF. Bạn cần có độ phân giải đủ tốt để loại mã này hoạt động mạnh mẽ. Vì vậy, có được một máy quét đủ tốt với độ phân giải lớn và sau đó xem một số phần mềm có hoạt động không.

Ví dụ

https://github.com/yob/pdf-reader/tree/master/examples

Chủ đề SO

[Chỉnh sửa]

Tôi không chắc bây giờ tôi có hiểu vấn đề của bạn không. Bạn muốn thêm lớp OCR vào các loại vật liệu khác nhau như ảnh ngẫu nhiên, ảnh chụp màn hình, tệp PDF không có lớp OCR, v.v. Tôi không biết giải pháp nhưng tôi chắc chắn có người biết nên đã hỏi một câu hỏi cụ thể về cách thực hiện với Automator và một số phần mềm OCR:

Tập lệnh tự động hóa với phần mềm OCR để tự động thêm OCR vào tài liệu?

— hhh
nguồn

Một lần nữa: Tôi không tìm cách phân tích hoặc trích xuất văn bản đã có. Tôi đang tìm cách nhận ra văn bản (OCR) trong tệp PDF về cơ bản là hình ảnh, ảnh bitmap; ban đầu chúng không chứa bất kỳ văn bản nào.

— magma

@magma xin vui lòng, xem cập nhật của tôi. Bạn muốn tự động hóa việc thêm lớp OCR để bạn có thể tìm kiếm trên các loại tài liệu khác nhau ngay cả khi không có "văn bản có thể tìm kiếm"? Nếu bạn có thể làm điều này, bạn có thể tìm kiếm trên tất cả các tài liệu trong Finder - bạn hiểu chứ? Tôi ngạc nhiên nếu Apple không làm điều này trong các bản nâng cấp sắp tới ...

— hhh

như đã nêu trong câu hỏi của tôi, vâng.

— magma

1

Đối với loại ứng dụng tự định hướng này, tôi là một fan hâm mộ lớn của Hazel.

http://www.noodlesoft.com/hazel.php

Nó giúp cho các hành động kịch bản trở nên cực kỳ dễ dàng mà không cần phải tìm hiểu một công cụ định hướng dòng lệnh nào hơn như perl hoặc python và được ghép nối với công cụ OCR mà bạn chọn (hiện tại tôi là PDF Pen Pro), bạn sẽ không gặp vấn đề gì khi xử lý các tệp của mình một cách tối thiểu ồn ào

http://www.smilesoftware.com/PDFpenPro/index.html

Cả hai đều là phần mềm trả phí, nhưng tiện ích của cả hai đều vượt xa trường hợp này. Trong tình huống của tôi, với lao động liên quan đến số hóa các hồ sơ được quét trong quá khứ của tôi (và giấy đang diễn ra), giá của những thứ này vượt xa thời gian tôi sẽ dành lập trình này ở nơi khác và bây giờ tôi sở hữu cả hai công cụ, tôi có thể thực hiện nhiều nhiệm vụ khác với họ

— bmike
nguồn

0

PDFScannerApp có hỗ trợ kịch bản không chính thức. Liên hệ với tác giả cho hành động Automator.

— ndf
nguồn

0

Tôi sử dụng Adobe acrobat đến OCR theo đợt. Máy quét song công của tôi có thể OCR sau khi quét nhưng theo tôi thì công nghệ OCR trong acrobat chính xác hơn. Tôi chỉ trỏ đến thư mục không có OCR sau đó acrobat lưu lại tệp PDF dưới dạng PDF có thể tìm kiếm bây giờ bao gồm một lớp văn bản. Nếu tôi muốn OCR thông qua dòng lệnh, tôi không biết cách nào nhưng tôi có thể tự động hóa kết thúc GUI bằng cách sử dụng Autohotkey. Không đáng tin cậy cũng không nhanh như dòng lệnh, nhưng nó thực hiện công việc sau khi bạn thiết lập hành động dòng công việc để giảm thiểu tương tác GUI.

Đối với Mac, tập lệnh apple thực hiện những gì Autohotkey thực hiện trên PC mặc dù tôi chưa thử trên máy Mac của mình.

Phím nóng tự động đi kèm với một máy ghi âm, vì vậy hầu hết việc viết kịch bản là bữa tối cho bạn với một chút chỉnh sửa để tinh chỉnh và có thể lặp lại nếu bạn muốn điều đó.

Tôi đã thử nghiệm hình ảnh OCRing nhưng chưa tự động hoàn toàn quá trình thông qua acrobat. Dòng lệnh là lý tưởng nhưng chưa tìm thấy một công cụ OCR chất lượng vượt quá acrobat nên bây giờ tôi vẫn gắn bó với acrobat.

— mặt trời
nguồn

0

Tôi tình cờ phát hiện ra điều này gần đây: http : // nobkit.com/faq.html

Bạn phải trả tiền sau 14 ngày

— Charlton
nguồn

1

Chào mừng bạn đến hỏi khác nhau! Chúng tôi đang cố gắng tìm câu trả lời tốt nhất và những câu trả lời đó sẽ cung cấp thông tin về lý do tại sao chúng là tốt nhất. Giải thích lý do tại sao bạn nghĩ rằng phần mềm bạn đề xuất là tốt hơn so với các phần mềm khác. Nói chung, các câu trả lời chỉ liên kết dễ bị xóa vì vậy bạn luôn muốn làm cho câu trả lời của mình bao gồm tất cả các thông tin liên quan. Xem Cách trả lời về cách cung cấp câu trả lời chất lượng.

— fsb

0

Tôi đã chuyển đổi Kéo và Thả chất lượng cao bằng cách sử dụng Docker.

Nếu bạn:

cài đặt Docker cho máy Mac của bạn và
sau đó tạo một ứng dụng Automator mới
với những nội dung này bên trong một hành động "Chạy một tập lệnh Shell". Chọn đầu vào Pass:"as arguments"

/bin/bash văn bản kịch bản:

cd "`dirname "$1"`"
/usr/local/bin/docker run --rm -v "$(pwd):/home/docker" jbarlow83/OCRmyPDF --force-ocr "`basename "$1"`" "`basename -s .pdf "$1"`-ocr.pdf"

Sau đó, bạn nên sử dụng các tệp PDF kéo và thả vào đó và bạn sẽ nhận được một tệp PDF có tên tương tự với "-ococ" được gắn vào tên tệp.

Tôi tưởng tượng nó có thể dễ dàng sửa đổi để trả lại một tệp cho Automator để sao chép ở đâu đó. Thêm chi tiết về gói docker OCRmyPDF tốt. và công cụ chính (cũng được đề cập trong một câu trả lời khác).

Bạn có thể kiểm tra nó trong chính Automator với hành động "Nhận các mục Finder được chỉ định" làm đầu vào cho điều này.

Lần đầu tiên chạy, nó sẽ mất nhiều thời gian hơn vì nó sẽ cần phải tải xuống các hình ảnh Docker cho OCRmyPDF (vô hình). Trong Terminal, bạn có thể chạy thay thế docker pull jbarlow83/ocrmypdfđể tăng tốc độ chạy đầu tiên. Một lần chạy thông thường mất khoảng 10 giây cho mỗi trang DPI cao nhưng có kết quả tự động chuyển văn bản thành văn bản ngay cả khi có bảng hoặc sơ đồ. Trước khi OCRing, tôi cắt bằng Sejda để các từ lề vô nghĩa từ các trang khác bị xóa.

Đối --force-ocrsố cho biết công cụ bỏ qua và ghi đè bất kỳ nỗ lực OCR nào trước đó, trong trường hợp của tôi thường chỉ là một phần và vô dụng.

— thadk
nguồn

0

OCRKit có cả hỗ trợ AppleScript và CLI. Từ trang trợ giúp của họ :

AppleScript

Bạn cũng có thể viết kịch bản OCRKit để tích hợp nó vào quy trình công việc cụ thể của mình. Ví dụ: xử lý các tệp đến, thông qua thư mục dùng chung, từ máy sao chép MFP, v.v. và chỉ cần yêu cầu OCRKit mở và do đó xử lý thông qua AppleScript:
tell application "OCRKit"
   -- the wonders of AppleScript POSIX path handling, ...
   open "Users:admin:Desktop:orderform.pdf"
   open POSIX path of "/Users/Admin/Desktop/orderform.pdf"
end tell 
Dòng lệnh

Vì kịch bản dòng lệnh trực tiếp OCRKit phiên bản 2.5 được hỗ trợ. Điều này giúp đơn giản hóa đáng kể việc sử dụng OCRKit trong xử lý hàng loạt, cho phép đặt nhiều tùy chọn hơn và cũng mạnh mẽ hơn và đa nền tảng hơn AppleSCript.
OCRKit.app/Contents/MacOS/OCRKit \ 
    --lang en | de | fr | es | ... \
    --format pdf | html | rtf | text \
    --no-progress \
    --output out-file in-file
Vì các tùy chọn dòng lệnh bổ sung OCRKit phiên bản 16.9 được hỗ trợ:

-r, --recursive directory

Quét thư mục đệ quy cho các tập tin mới. Bỏ qua các tệp từ OCRKit, với lớp văn bản hoặc đồ họa vector.

--pattern "regex"

Mẫu được sử dụng để khớp tên tệp trong quá trình quét đệ quy. Mặc định %.pdf$, khuyến nghị cho TIFF là%.tiff?$

--log file

Viết thông tin và thống kê tệp nhật ký trong quá trình quét đệ quy vào tệp.

--password secret

Sử dụng mật khẩu bí mật để giải mã các tệp PDF trong quá trình xử lý hàng loạt.

--test-run [ fast ]

Chỉ chạy xử lý lô thử nghiệm trong chế độ thử nghiệm để kiểm tra tệp PDF hoặc để lấy số trang để ước tính tổng thời gian xử lý. "nhanh" sẽ chỉ kiểm tra trang đầu tiên của mỗi tệp, thay vì đi qua tất cả các trang để phân tích hình ảnh và vector.

--tag name

Sử dụng tên thuộc tính mở rộng để gắn thẻ trạng thái xử lý của tệp trong quá trình xử lý hàng loạt. macos:OCRKit (%s)thay vào đó sẽ sử dụng thẻ Finder macOS gốc hoặc đơn giản là macos:OCRKitkhông bao gồm thuộc tính trạng thái. Thứ tự của các thuộc tính trạng thái là: started, analyzed, processed, và có thể cũng được encrypted.

— xilopaint
nguồn