Làm cách nào để xóa OCR khỏi PDF?

13

Tôi đã tìm kiếm Google một thời gian nhưng không thể tìm thấy câu trả lời cho câu hỏi của mình.

Tôi có các lớp OCR không mong muốn trong một tài liệu mà gần đây tôi đã quét bằng Adobe Acrobat. Nó chưa được OCRed đúng cách và tôi muốn tìm lại một số thông tin, nhưng OCR đang khiến thông tin mong muốn bị xóa. Tôi đã chuyển đổi các tệp thành TIF, nhưng nhận thấy sự giảm chất lượng (rất) đáng kể. Tôi đã nghe nói rằng in sang tệp PDF khác sẽ giữ văn bản hoặc làm giảm chất lượng hình ảnh.

Tôi đánh giá cao bất kỳ trợ giúp trong việc giải quyết vấn đề này càng sớm càng tốt.

Cảm ơn bạn.

— Sanoo
nguồn

5

Trong Acrobat Pro DC, lệnh thích hợp là "Xóa thông tin ẩn", có sẵn thông qua cả hai công cụ "Bảo vệ" và "Làm lại".

Khi chạy lệnh, nó chỉ tìm kiếm thông tin ẩn nhưng không thay đổi tài liệu. Sau đó, bạn phải cho Acrobat biết thông tin nào cần xóa. Trong trường hợp này, chọn "Văn bản ẩn" trong ngăn Kết quả, sau đó nhấp vào nút Xóa và lưu tài liệu đã thay đổi.

— người dùng1125483
nguồn

Tôi đã sử dụng "xóa thông tin ẩn", nhưng đối với tôi vì một số lý do chỉ xóa các phần của hình ảnh trên các trang nhất định. Cảm ơn bạn đã trả lời.

— Sanoo

Điều này là không đúng sự thật. Bằng cách nào đó (có thể là lỗi macOS PDFKit) văn bản ABBYY FineReader-OCRed của tôi đã bị hỏng và kiểm tra "Văn bản ẩn" trong Redact → Xóa Ẩn đã xóa văn bản mà không gặp sự cố nào; Sau đó tôi đã có thể sử dụng thành công Quét nâng cao → Nhận dạng văn bản để thực hiện OCR trong chính Acrobat.

— Nicholas Riley

Vấn đề đối với tôi là sau khi tôi xóa văn bản ẩn, tôi vẫn không thể chạy OCR bằng "ClearScan" (tức là "Văn bản và hình ảnh có thể chỉnh sửa"). Thật lạ vì lớp văn bản dường như không còn nữa, nhưng việc chạy OCR tạo ra lỗi "Acrobat không thể thực hiện nhận dạng vì: trang chứa văn bản có thể hiển thị."

— dùng1125483

1

Sau rất nhiều thử nghiệm, tôi thấy rằng việc in ra Adobe PDF từ Adobe Acrobat sẽ in tài liệu mà không cần OCR và không làm giảm chất lượng (mất độ chú ý ở cái nhìn đầu tiên bị mất).

Tuy nhiên, nhiều trang web cho rằng điều này không hoạt động. Tôi cũng đã thử các máy in khác như Foxit Reader và OneNote nhưng chất lượng bị giảm. JPEG cũng vậy.

Xin lưu ý rằng số dặm của bạn có thể thay đổi.

Lưu ý: Tôi đang để lại chủ đề này được đánh dấu là chưa được trả lời với hy vọng tìm được câu trả lời tốt hơn của tôi.

— Sanoo
nguồn

1

(một năm trước...)

Ví dụ, nếu như bạn nói, các tài liệu được quét và không được in ra PDF từ Word, bạn có thể dễ dàng xóa bằng Adobe của mình:

Chọn Tài liệu, Kiểm tra Tài liệu và bây giờ bạn có thể xóa văn bản ẩn (OCR).

— Tiếng anh
nguồn

Cảm ơn vì đã trả lời. Tôi sẽ kiểm tra nó ngay khi tôi có thể và cho bạn biết. Cảm ơn câu trả lời!

— Sanoo

Tôi nghĩ rằng tôi đã nhận xét về điều này, nhưng vấn đề là tôi có Acrobat DC Pro và các menu đó đã bị xóa. Cảm ơn câu trả lời của bạn nào.

— Sanoo

1

Trong Acrobat Pro: sử dụng 'xóa thông tin ẩn' (trong phần 'bảo vệ'). Chọn tất cả, thực thi, OCR đã biến mất

— jazzzz
nguồn

1

Trong Acrobat X, bên dưới Bảo vệ, có nút Tài liệu vệ sinh loại bỏ MỌI THỨ nhưng những gì có thể nhìn thấy (bao gồm lớp văn bản OCR'd), chuyển đổi tài liệu thành bản đồ bit được làm phẳng.

— Dave
nguồn

0

Tôi đã xây dựng một công cụ để thực hiện công cụ PDF Redactor miễn phí này . Nếu bạn tải lên hình ảnh và chỉ cần nhấp vào xử lý lại, nó sẽ làm phẳng pdf của bạn và xóa OCR. Nếu bạn muốn, bạn cũng có thể vẽ các dấu phân phối trên tài liệu.

— ngôn ngữ học
nguồn