Làm cách nào tôi có thể chuyển đổi hình ảnh được quét dưới dạng PDF sang tệp PDF có thể tìm kiếm? [đóng cửa]


19

Tôi có một bản PDF của một cuốn sách được quét.

Tôi đang tìm kiếm một phần mềm miễn phí sẽ thực hiện OCR và sau đó cung cấp tùy chọn lưu lại dưới dạng PDF hoặc tài liệu.

Có một cái không?


Bạn có nghĩa là bạn muốn chuyển đổi hình ảnh trong pdf thành văn bản?
DaveParillo

có, nhưng tôi không muốn một tệp txt làm đầu ra. Tôi muốn xem chính xác pdf nhưng với tùy chọn nhấn Ctrl + F và đánh dấu các từ, v.v.

bạn sẽ có một thời gian rất khó khăn để chuyển đổi bản PDF này mà không mất định dạng và kiểu văn bản. tôi vẫn chưa tìm thấy phần mềm OCR có thể bảo quản đúng tài liệu khỏi các hình ảnh được quét. chuẩn bị cho một số công việc lừa (ví dụ: hiệu đính, v.v.) :)

Câu trả lời:


5

Bạn có thể tải xuống bản dùng thử 30 ngày của Adobe Acrobat Pro và sử dụng chức năng 'Nhận dạng văn bản OCR' ('Tài liệu> Nhận dạng văn bản OCR> Nhận dạng văn bản bằng OCR ...'). Trong hộp thoại cài đặt, chọn 'Hình ảnh có thể tìm kiếm' làm kiểu đầu ra. Điều này sẽ giữ hình ảnh trang nhưng nhúng văn bản OCR'ed để tài liệu sẽ có thể tìm kiếm được và cho phép văn bản được chọn, sao chép và dán.

Sau khi chạy OCR, bạn sẽ cần xác nhận hoặc sửa các từ mà OCR không chắc chắn về việc sử dụng các chức năng 'Tìm nghi ngờ OCR'.


Mặc dù Adobe không miễn phí, nhưng cho đến nay, đó là giải pháp OCR có khả năng nhất hiện có
James Healy

4

Nếu bạn có Tài khoản Google thì Google Docs hiện có chức năng tải lên tệp PDF và thực hiện OCR trên đó.

Tôi đã thử bản thân mình và nó tạo ra một cú đâm công bằng vào một tệp PDF được định dạng tốt.

Các định dạng bị phá hủy khá nhiều nhưng văn bản dường như tồn tại.


4

Các sản phẩm sau được tìm thấy được liệt kê trên Internet, nhưng tôi chưa sử dụng chúng.

OCR trực tuyến

Nhà ga OCR

OCR Terminal là một dịch vụ OCR trực tuyến thực hiện Nhận dạng ký tự quang học (OCR) trên các hình ảnh và tệp pdf được quét của bạn và chuyển chúng thành các tài liệu có thể chỉnh sửa và tìm kiếm văn bản.

OCR miễn phí

Free-OCR.com là một công cụ OCR (Nhận dạng ký tự quang học) trực tuyến miễn phí. Bạn có thể sử dụng điều này để thực hiện OCR trên bất kỳ hình ảnh nào bạn cung cấp.
Dịch vụ này là miễn phí, không cần đăng ký. Chúng tôi cũng không cần địa chỉ email của bạn.
Chỉ cần tải lên tập tin hình ảnh của bạn. Free-OCR có dạng JPG, GIF, TIFF BMP hoặc PDF ( chỉ trang đầu tiên ). Hạn chế duy nhất là hình ảnh không được lớn hơn 2MB, không rộng hơn hoặc cao hơn 5000 pixel và có giới hạn 10 lần tải lên hình ảnh mỗi giờ.

Maestro Recognition Server là bản thương mại, nhưng có bản dùng thử trực tuyến.

Phần mềm miễn phí

FreeOCR - chỉ dành cho hình ảnh.

FreeOCR là một chương trình quét & OCR bao gồm công cụ ocr miễn phí Tesseract còn được gọi là GUI Tesseract. Nó bao gồm trình cài đặt Windows và rất đơn giản để sử dụng và hỗ trợ các tài liệu fax, fax cũng như hầu hết các loại hình ảnh bao gồm cả Tiffer nén mà công cụ Tesseract không thể đọc được. Hiện tại nó có chức năng quét Twain.

pdfsandwich - pdf -> trình chuyển đổi pdf.

pdfsandwich là một công cụ dòng lệnh cho các cuốn sách hoặc tạp chí được quét OCR. Nó có thể nhận ra bố cục trang ngay cả đối với văn bản nhiều màu.

Về cơ bản, pdfsandwich là một tập lệnh bao bọc gọi các nhị phân sau: convert, cuneiform, gs và hoc2pdf. Nó được biết là chạy trên các hệ thống Unix và đã được thử nghiệm trên Linux và MacOS X. Nó hỗ trợ xử lý song song trên các hệ thống đa bộ xử lý.


Tôi mới sử dụng pdfsandwich. Nó hoạt động và nó miễn phí! :) Điều này chắc chắn sẽ giúp trong luận án của tôi, cảm ơn!
Eddy

Hình như pdfswich đã di chuyển? tobias-elze.de/pdfsandwich
pioto

@pioto: Không phải tôi đã thêm pdfsandwich ở trên, nhưng tôi đã sửa liên kết như bạn đề xuất.
harrymc

2

Cuneiform + hoc2pdf + Ghostscript : Một giải pháp nguồn mở DIY.

Tôi đã đăng một câu trả lời phác thảo một giải pháp liên quan đến một phiên bản của hệ thống Cuneiform OCR nguồn mở hiện tại và hoc2pdf cùng với Ghostscript để đặt các trang PDF lại với nhau.

Điều đó đặc biệt dành cho Linux, nhưng bạn cũng có thể nhận được Cuneiform và Ghostscript cho Windows. Mặc dù vậy, tôi không chắc chắn về hoc2pdf hoặc tương đương.


1

Đây là một phương pháp rất lạ, liên quan đến việc cho phép Google lập chỉ mục và OCR cho bạn trên một trang web, sau đó truy xuất nó.


vâng, tôi cũng thấy điều đó ... thật kỳ lạ :) Tôi có thể sẽ làm điều đó ...

0

Cài đặt Imagemagick . Mở một cửa sổ cmd hoặc thiết bị đầu cuối:

convert myfile.pdf myfile-%02d.jpg

Đầu ra sẽ là 1 tệp jpg cho mỗi trang trong pdf, myfile-00.jpg, myfile-01.jpg, v.v.

Vượt qua mỗi hình ảnh mặc dù một chương trình ocr. Tôi không có nhiều kinh nghiệm với điều này, nhưng dường như có rất nhiều sự lựa chọn.

Chuyển đổi từng trang văn bản trở lại thành pdf. Bạn có thể làm điều này một lần nữa với hình ảnh tưởng tượng, nhưng cũng có những cách khác:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf

0

Yêu cầu của bạn dường như là một giải pháp phức tạp cho vấn đề, mặc dù tôi có thể không hiểu chính xác vấn đề. Bằng mọi giá:

Tại sao không có một trình soạn thảo PDF sẽ cho phép bạn nhập dữ liệu trực tiếp vào trang pdf?


0

Hãy thử PDFCubed.com Không có gì để cài đặt, tất cả đều được thực hiện trực tuyến. Bạn có thể gửi tài liệu của mình để được xử lý qua web, email hoặc dropbox. Các tệp PDF và TIF được quét được chuyển đổi thành pdf văn bản có thể tìm kiếm và sau đó có thể được truy xuất lại qua web, email hoặc dropbox.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.