tìm kiếm các tệp PDF với mã hóa ký tự không chuẩn


19

Một số tệp PDF tạo ra rác (" mojibake ") khi bạn sao chép văn bản (mặc dù chúng hiển thị OK). Điều này khiến bạn không thể tìm kiếm chúng (bất cứ thứ gì bạn tìm kiếm sẽ không khớp với rác).

Có ai có một cách giải quyết dễ dàng?

Ví dụ:

  1. Hướng dẫn sử dụng TEAC TV EU2816STF (giải quyết các vấn đề trên trong Adobe Reader trên cả Windows và Mac, nhưng hoạt động tốt trong Bản xem trước trên máy Mac)
  2. Hướng dẫn sử dụng Leadtek Winfast PVR2 (liên kết FTP; cũng có vấn đề trong Xem trước trên máy Mac)
  3. Hướng dẫn sử dụng thẻ điều chỉnh Swann TV (liên kết FTP; cũng có vấn đề trong Xem trước trên máy Mac)
  4. Thỏa thuận cấp phép điện thoại (từ DTMS hiện không còn tồn tại )
  5. Macquarie IFP xem xét quỹ hàng quý
  6. Tập sách doanh nghiệp nhỏ BAN-TACS (phiên bản lưu trữ)
  7. Tờ rơi Easterfest 2004 (cũng từ kho lưu trữ)

Tôi đang sử dụng Adobe Reader (phiên bản mới nhất) cho Windows - có lẽ một trình xem thay thế có thể giúp ích? Tôi đang tìm kiếm một giải pháp miễn phí cho Windows. Nguồn mở sẽ còn tốt hơn nữa.

Chỉnh sửa: Các tài liệu cho công cụ Văn bản trích xuất đa trị liệu có một bản tóm tắt tốt về lý do tại sao mọi thứ có thể sai, bao gồm: (trích dẫn tài liệu sửa đổi lần cuối tháng 1 năm 2006)

  • Văn bản có thể không có ánh xạ Unicode. Phông chữ PDF loại 3 thường không có, và TeX DVI có các ký tự không có tương đương Unicode.
  • Mã hóa Unicode có thể có lỗi. Open Office ánh xạ một số ký tự vào cùng một Unicode, dẫn đến việc giảm chữ cái và nhân đôi.

Tôi đoán giải pháp cuối cùng trong những trường hợp này là OCR mỗi glyph trong một phông chữ để tìm ra nó thực sự là nhân vật nào. Lưu ý rằng điều này sẽ dễ dàng hơn OCRing một tài liệu được quét nhiễu vì hình dạng chính xác của glyph có sẵn (ở độ phân giải vô hạn vì đó là hình ảnh "vectơ").


Sử dụng clipbrd.exe(xem mydigitallife.info/2008/11/06/õ ) bạn có thể thấy những gì trên bảng tạm. Điều đó mang lại cho bạn điều gì?
Arjan

@Arjan van Bentem: nó cung cấp cho tôi chính xác cùng loại rác mà tôi nhận được khi dán vào Notepad.
Hugh Allen

Bất kỳ chi tiết về định dạng? Tôi đang dùng Mac, nhưng tôi cho rằng Windows sẽ cho bạn biết nếu một cái gì đó là hình ảnh hoặc văn bản, và sau đó đối với văn bản cũng có thể tiết lộ điều gì đó về mã hóa?
Arjan

Đối với ví dụ về Hướng dẫn sử dụng TV: cùng một vấn đề trong Adobe Reader 8.1.2 trên máy Mac, nhưng không có vấn đề gì khi sử dụng Bản xem trước của Mac để sao chép hoặc tìm kiếm văn bản. Thuộc tính tài liệu của nó hiển thị "Mã hóa: Tùy chỉnh" cho các phông chữ (xem img.skitch.com/20100318-827uckkb5i326eta291f3qig3u.png ). Các tài liệu PDF khác hiển thị những thứ như "Mã hóa: Ansi" hoặc "La Mã" và không có vấn đề gì trong Adobe Reader trên máy Mac (như adobe.com/education/pdf/type_primer.pdf mang lại img.skitch.com/20100318-tbyjrny9bsg684eqhr7b3 ).
Arjan

1
Ngoài ra, pdftextonline.com không thể tìm nạp văn bản từ Hướng dẫn sử dụng TV cũng như tài liệu Gọi điện (không thử các tài liệu khác). Nhưng gửi tới Gmail và sau đó xem dưới dạng HTML sẽ hoạt động với Hướng dẫn sử dụng TV (giống như Xem trước không có vấn đề gì với tài liệu đó) ...
Arjan

Câu trả lời:


3

Foxit Reader , có lẽ?

Đối với những gì nó có giá trị, tôi chỉ kiểm tra PDF bạn liên kết với với Safari 4.0.4 trên Mac OS X 10.6.2 và trong khi có một số Engrish , PDF nó ám một cách hoàn hảo mà không cần bất kỳ "rác" trên màn hình. Có lẽ bạn đang gặp vấn đề về Unicode (phổ biến hơn trên Windows so với Mac OS)?


Rác không có trên màn hình - nó nằm trong bảng tạm khi tôi sao chép một số văn bản. Điều gì xảy ra với bạn khi bạn cố gắng?
Hugh Allen

@Hugh: Tính năng Đó là một tivi màu được điều khiển từ xa. Có thể đặt trước 100 chương trình từ các băng tần VHF, UHF hoặc kênh truyền hình cáp. Nó có thể điều chỉnh các kênh truyền hình cáp. Điều khiển TV rất dễ dàng bằng hệ thống điều khiển menu của nó. Nó có ba ổ cắm Euroconnector cho các thiết bị bên ngoài (như máy tính, video, trò chơi video, bộ âm thanh, v.v.)
Alex

@Hugh: Đạn không sao chép đúng, nhưng phần còn lại là. Phần / trang / đoạn cụ thể nào bạn đang gặp vấn đề và tôi sẽ thử xem?
Alex

Tất cả. Tôi đang sử dụng Adobe Reader cho Windows. Tôi vừa cập nhật lên phiên bản mới nhất không giúp được gì. +1 cảm ơn về thông tin. Tôi đoán Adobe Reader có một lỗi không được OSX chia sẻ.
Hugh Allen

4
Tôi đã thử Foxit Reader và nó có cùng một vấn đề. Trình cài đặt của nó cũng thực sự xâm nhập, muốn cài đặt thanh công cụ, sửa đổi trang chủ của bạn, v.v :(
Hugh Allen

3

Cách đơn giản nhất để giải quyết vấn đề này là mở tệp trong phiên bản Google Chrome gần đây với plugin đọc PDF tích hợp . Sau đó, bạn có thể sử dụng tính năng tìm kiếm của Chrome để tìm văn bản và sao chép-dán hoạt động chính xác.


2

Đối với ví dụ về Hướng dẫn sử dụng TV : cùng một vấn đề trong Adobe Reader 8.1.2 trên máy Mac, nhưng không có vấn đề gì khi sử dụng Bản xem trước của Mac để sao chép hoặc tìm kiếm văn bản. Ngoài ra, gửi nó đến một tài khoản Gmail và sau đó chọn "Xem" và sau đó "Plain HTML" sẽ hiển thị văn bản. Nhưng Adobe Reader không thích nó.

Thuộc tính tài liệu của nó hiển thị "Mã hóa: Tùy chỉnh" cho các phông chữ. Một tài liệu khác cho thấy những thứ như "Mã hóa: Ansi" hoặc "La Mã" và không có vấn đề gì trong cả Bản xem trước cũng như Adobe Reader trên máy Mac:

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

Tuy nhiên, cả hai ví dụ của LeadtekSwann đều gặp sự cố trong Bản xem trước trên máy Mac cũng như trong Gmail và cả hai đều hiển thị "Mã hóa: Nhận dạng-H". Các Phonedisc thử nghiệm thất bại quá, với "Encoding: Tuỳ chỉnh".

Nhầm lẫn và không nhất quán, nhưng trên một số diễn đàn Adobe tôi đã tìm thấy lời giải thích sau đây cho một ví dụ khác cho thấy "Mã hóa: Tùy chỉnh" (nhấn mạnh của tôi):

Sau khi nhìn vào bên trong PDF, hóa ra không có thông tin mã hóa có thể sử dụng được (không có trong PDF cũng như trong dữ liệu phông chữ được nhúng) để rút ra ý nghĩa của các ký tự / glyphs được hiển thị trên các trang trong tài liệu.

Tất cả các phông chữ đều được nhúng, nhưng theo cách mà tất cả thông tin mã hóa đã bị xóa. Đây là một ví dụ điển hình của PDF hoàn toàn phù hợp với thông số PDF nhưng thông tin quan trọng về ý nghĩa của văn bản trong đó đã bị loại bỏ trong quá trình tạo PDF. Theo như tôi có thể nói, sẽ rất khó để khôi phục thông tin mã hóa.

Điều này không giải thích tại sao Xem trước của Mac (và rõ ràng là Infix) có thể xử lý một số ví dụ khi Adobe Reader bị lỗi, ngay cả với "Mã hóa: Tùy chỉnh". Có lẽ Preview không có vấn đề gì khi phông chữ chính xác xảy ra trên chính máy tính? Hoặc có thể đó chỉ là đoán mã hóa, có thể xảy ra với một số nhưng không phải tất cả các tài liệu?

Bất cứ điều gì gây ra điều này: nếu việc truy cập Google Docs hoặc Gmail không hoạt động, thì có lẽ cách giải quyết dễ dàng nhất (nhưng không dễ dàng) thực sự là lưu dưới dạng TIFF và sau đó thực hiện OCR . Các dịch vụ như Evernote có thể thực hiện nhanh chóng (nó thực hiện OCR trên hình ảnh; tôi nghi ngờ nó sẽ thực hiện OCR trên PDF).


-1

Việc tải xuống tệp 1 không thành công đối với tôi, tệp 2 Tôi có thể mở bằng xpdf, trình xem pdf nguồn mở và nhanh. Tôi đoán nó không thể xử lý các biểu mẫu, nhưng đối với văn bản thuần túy và grafic tôi thích nó vì thời gian khởi động nhanh.


1
Câu hỏi không phải là về việc "mở" các tệp PDF hay về "mở với thời gian khởi động nhanh". Thay vào đó, đó là về việc không thể sao chép các đoạn văn bản từ các trang được hiển thị. Vì vậy, câu trả lời của bạn có thể là một câu hỏi hay, nhưng không phù hợp với câu hỏi này.
Kurt Pfeifle

-2

Thật không may, nó không thể được giúp đỡ. Tài liệu PDF không thực sự chứa bất kỳ chữ cái nào, nhưng chúng chứa hình dạng của các chữ cái. Nói cách khác, thay vì đọc một chữ cái và vẽ nó trên màn hình Adobe Reader như mọi ứng dụng đọc PDF khác sẽ chỉ đơn giản là vẽ đồ họa vector được mã hóa trong tệp.

Tuy nhiên, một số trình đọc PDF đi kèm với phần mềm cho phép phân tích hình dạng và khôi phục văn bản bằng cách sử dụng nhận dạng văn bản. Nó hoạt động giống như khi bạn quét một tờ giấy in văn bản và phần mềm đã sử dụng như ABBYY FineReader để chuyển đổi nó thành văn bản, nhưng do chất lượng cao của các bản vẽ vector, kết quả thường tốt hơn nhiều so với các tài liệu được quét.

Một số tài liệu có thể được bảo vệ khỏi bị chuyển đổi thành văn bản bằng cách đánh lừa Adobe Reader. Ví dụ, các chữ cái có thể được vẽ trong một số hình dạng chồng chéo theo cách mà trực quan chúng vẫn trông giống nhau, trong khi phần mềm nhận dạng văn bản sẽ không thể nhận dạng văn bản. Tài liệu của bạn là một ví dụ về bảo vệ như vậy.

Một cách sẽ là in tài liệu thành hình ảnh và để phần mềm nhận dạng văn bản nhận ra nó. Độ phân giải cao hơn cho hình ảnh sẽ cải thiện chất lượng. Phương pháp này tuy nhiên không thực sự tiện dụng.


2
Tài liệu PDF không thực sự chứa bất kỳ chữ cái nào - điều đó không đúng với hầu hết các tài liệu không được quét; xem en.wikipedia.org/wiki/Portable_Document_Format#Text
Arjan 17/03/2016

Cảm ơn bạn. Thông tin thú vị. Tôi luôn luôn mặc dù không có thông tin về văn bản trong PDF. Tuy nhiên, có vẻ như tài liệu được cung cấp bởi Alexander không có văn bản được nhúng. Hoặc cũng có thể phông chữ được sử dụng trong đó có mã hóa ký tự kỳ lạ, nghĩa là chúng không tương ứng với mã hóa ASCII điển hình.
Sergiy Belozorov

2
Làm thế nào tôi có thể sao chép văn bản từ PDF nếu nó chỉ là hình dạng? Bạn đúng một phần - nó không được rasterized trong PDF (trừ khi nó từ nguồn được quét), nhưng bao gồm dữ liệu văn bản. Tuy nhiên, các phông chữ (thường) cũng được nhúng, cho phép văn bản đi kèm được hiển thị bằng vector.
Alex
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.