PDF đã bị cắt xén văn bản khi sao chép dán


23

Tôi đang cố gắng sao chép và dán văn bản từ tệp PDF.

Tuy nhiên, bất cứ khi nào tôi dán văn bản gốc, đó là một mớ hỗn độn các ký tự bị cắt xén. Văn bản trông như sau (đây chỉ là một trích xuất nhỏ):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

Tôi đã thử nó trong cả trình đọc PDF của Adobe và Foxit. Tôi đã thực hiện 'Lưu dưới dạng văn bản' trong Adobe Reader và tệp văn bản kết quả là cùng một văn bản bị cắt xén.

Bất kỳ ý tưởng làm thế nào tôi có thể đưa văn bản này ra không bị cắt xén? (Khác với nhập thủ công ... có rất nhiều văn bản để trích xuất.)


Hãy thử một số tiện ích trình đọc màn hình (hoạt động với jpeg, thực hiện màn hình in và bạn đến đó) hoặc đây là một cách khác . (Chỉ là một 'phỏng đoán', đừng cắn tôi vì điều đó. Tôi đã sử dụng cách đầu tiên sau đó. Hy vọng có nhiều cách thuận tiện hơn).
Apache


Tôi cũng có thể xác nhận vấn đề này với OS X, ít nhất là vào ngày 10.8.2. Tôi đã dành một chút thời gian để xem cấu trúc tệp PDF, nhưng thật không may, tôi không thể thấy bất kỳ cách nào để sửa chữa thiệt hại. "PreFlight" của Acrobat Pro không báo cáo sự cố với tệp khi kiểm tra tệp đó theo tiêu chuẩn PDF / A và báo cáo Khoảng không quảng cáo cho thấy glyphs được ánh xạ với các ký tự Unicode sai rõ ràng. Tôi đã đưa ra một báo cáo lỗi với Apple - ID 12655651. Tôi sẽ báo cáo lại ở đây nếu / khi tôi nhận được bất kỳ cập nhật nào.
KenD

Câu trả lời:


11

Cách đơn giản nhất để giải quyết vấn đề này là mở tệp trong phiên bản Google Chrome gần đây với plugin đọc PDF tích hợp . Sau đó, bạn có thể sử dụng tính năng tìm kiếm của Chrome để tìm văn bản và sao chép-dán hoạt động chính xác.

Tôi muốn bỏ phiếu nhận xét của Pipitas về câu trả lời của Shiki, nhưng tôi không có tín dụng :( Vấn đề có thể là mã hóa phông chữ tùy chỉnh, không phải mã hóa . Trong Acrobat, nhấp vào Tệp -> Thuộc tính, sau đó nhấp vào tab Phông chữ để xem mã hóa và tab Bảo mật để xem liệu nó có được mã hóa hay không.


Thật vậy, mã hóa phông chữ tùy chỉnh là thủ phạm đối với tôi. Tuy nhiên, Chrome không phải là giải pháp. Tôi đã giải quyết vấn đề một phần với Ghostscript tái tạo PDF từ PS (Tôi may mắn có được nguồn PS). Bất kỳ nhóm ký tự nào mà LaTeX áp dụng chữ ghép (ví dụ: ff, c, fi, v.v.) không hiển thị trong văn bản sao chép của PDF, yêu cầu chỉnh sửa khi bạn sao chép / dán.
Fuhrmanator

1
Vấn đề tương tự với chrome
JinSnow

4

Tôi đã phát hiện ra vấn đề này với các tệp PDF do tôi tạo và tôi tin rằng tôi đã theo dõi nguồn gốc của vấn đề: sử dụng Bản xem trước của Mac OS X để giảm kích thước tệp PDF.

Tôi đã tạo một số bộ lọc Quartz bằng Colorsync Utility để nén hình ảnh trong các tệp PDF để giảm kích thước tệp chung của tệp PDF bằng hình ảnh. Chẳng hạn như được mô tả ở đây: http://www.macosxhints.com/article.php?story=20031106133852693

Tôi thấy rằng tôi có thể dễ dàng sao chép và dán văn bản từ tệp PDF gốc (không nén), nhưng sau khi chạy tệp PDF đó qua bộ lọc Giảm kích thước tệp tôi đã tạo, tệp PDF được nén không sao chép rõ ràng (trông giống như các chuỗi bạn đã đăng).

Tuy nhiên, chạy cùng một bản PDF gốc thông qua Tài liệu của Adobe Acrobat Pro> Giảm kích thước tệp, tệp PDF được nén có thể sao chép và dán thành công văn bản.

Vì vậy, điều này không hoàn toàn hữu ích trong trường hợp của bạn, giả sử rằng tệp PDF của bạn đã được nhận từ nơi khác và bạn không thể truy cập phiên bản gốc, nếu nó thực sự bị nén theo một cách nào đó. Nhưng đó có thể là lời giải thích - rằng tệp đã được xử lý bằng cách nào đó trong nỗ lực giảm kích thước tệp.

Điều này có thể hữu ích cho những người tạo nội dung gặp vấn đề tương tự khi sao chép và dán văn bản từ tệp PDF - hãy cẩn thận khi sử dụng bộ lọc OS X Quartz để thu nhỏ tệp PDF của bạn!

--edit-- Tôi cũng đã nhận thấy vấn đề này khi kết hợp các tệp PDF với Bản xem trước. Hai tệp PDF nguồn có thể được sao chép và dán tốt, nhưng khi kéo một trang từ tệp này sang tệp khác, sau đó lưu tệp PDF kết hợp, văn bản trong tài liệu kết hợp không thể được sao chép / dán. Đây là hai tài liệu được tạo cùng lúc với Filemaker Pro 11 trên Mac - Tôi không thể tưởng tượng chúng sẽ có các bảng mã khác nhau hoặc bất kỳ thứ gì như vậy.


Tôi đã nhận được một vài tập tin pdf từ một người dùng hệ điều hành mac. Chọn là tốt, nhưng sao chép và dán sẽ chỉ cung cấp cho bạn rác. Hãy thử một loạt các trình chuyển đổi từ pdf sang word, bao gồm googledoc, adobe lưu dưới dạng văn bản, tất cả chúng đều cho văn bản bị cắt xén.
TIGR

Tôi nghi ngờ việc thu hẹp OS X PDF là thủ phạm. Bất cứ ai ở ngoài đó nhận thức được bất kỳ phương tiện để "hoàn tác" hoạt động như vậy? Cảm ơn!
TIGR

Tôi đã in tệp pdf sang một số máy in (ảo) và tôi đã nhận được các tệp pdf kích thước 4x. Tệp in rõ ràng là hình ảnh, không thể chọn văn bản, trong khi bản gốc có thể được chọn (mặc dù bị cắt xén).
TIGR

4

Có một cách rất dễ dàng khác để thực hiện một cách giải quyết :)

Chỉ cần in tài liệu bằng CutePdf, máy in Adobe 2 Pdf hoặc bất kỳ nội dung tương tự nào. Điểm mấu chốt là, bạn cần in ra định dạng pdf.

Trong nhiều trường hợp nó sẽ dễ dàng loại bỏ vấn đề.


2

Giải pháp hiệu quả với tôi:

  • Tải tài liệu lên Google Drive / Docs
  • Google sẽ nhập nó (kể từ năm 2013) dưới dạng PDF
  • Mở chế độ xem PDF và chọn Tệp > Mở bằng > Google Docs
  • Sẽ mất khoảng một phút để xuất tài liệu

Kết quả không hoàn hảo, nhưng đã giúp tôi đạt được 80% và cung cấp cho tôi đủ văn bản mà tôi không phải viết lại mọi thứ!


2

GIẢI QUYẾT: (làm việc cho tôi trên Windows 8, Acrobat XI, Office 2010)

Lựa chọn 1:

  1. In từ Acrobat bằng "Đầu ra tài liệu Microsoft XPS" là: "tên tệp của bạn.oxps"
  2. Mở "... oxps" bằng Trình xem XPS. * (xem liên kết tải xuống trong các bình luận bên dưới)
  3. In thành PDF (Acrobat PDF hoặc CutePDF), sử dụng độ phân giải cao nhất (600 DPI).
  4. Mở bằng Acrobat và sử dụng tùy chọn OCR (Tìm kiếm hình ảnh (Chính xác)).

CHƠI LÔ TÔ!

Bình luận:

  • Sử dụng độ phân giải cao nhất và Hình ảnh có thể tìm kiếm (chính xác) sẽ lưu văn bản của bạn mà không mất vẻ ngoài rõ ràng của nó. Độ phân giải thấp sẽ làm cho văn bản của bạn có thể đọc được, nhưng nhìn nhảm nhí.
  • Tải xuống Microsoft XPS (tệp): http://www.microsoft.com/en-us/doad/details.aspx?id=11816
  • Nếu bạn không biết OCR là gì hoặc nơi để tìm Hình ảnh có thể tìm kiếm (chính xác) hoặc Cách in bằng cách sử dụng "Microsoft XPS Document Writer", hãy tự mình tìm kiếm Google để có những trải nghiệm tốt nhất cho chính bạn.

* Chỉ tải xuống nếu bạn chưa cài đặt XPS.

Lựa chọn 2:

Thực hiện tương tự, nhưng lưu dưới dạng hình ảnh (png, tiff, ...), sau đó bạn sẽ phải kết hợp tất cả các trang lại trong một tệp "PDF".


1
Bước 1,2 và 3 dường như là một chặng đường dài khi bạn chỉ có thể bỏ qua bước 3 In sang PDF. (Ví dụ từ bên trong trình đọc PDF của bạn). Không cần phải đi đường vòng qua XPS.
Hennes

@Hennes Làm bước 4 mang lại lỗiAcrobat could not perform OCR on this page because: This page contains renderable text
Fuhrmanator

Text văn bản có thể hiển thị 'nghe như một thứ vẫn cần được vẽ (kết xuất). Có thể đã được thực hiện và được lưu trữ dưới dạng bitmap có thể OCR nếu bạn đi qua XPS. Nhưng đó chỉ là dự đoán.
Hennes

1

Có một rủi ro là thông tin sẽ không thể truy xuất được. Các tài liệu PDF về cơ bản là một tài liệu ghi đè lên một tài liệu khác, một văn bản đơn giản, một hình ảnh khác. Khi bạn sao chép và dán từ tài liệu, bạn đánh dấu văn bản trong khi nhìn vào hình ảnh, nhưng những gì được sao chép vào bảng tạm của bạn là phần tương ứng của phần văn bản.

Tùy thuộc vào cách tạo tài liệu, chất lượng và tính sẵn có của phần văn bản có thể khác nhau rất nhiều. Nếu bạn lưu tài liệu xử lý văn bản ở định dạng PDF, sử dụng Acrobat, Word, trình điều khiển máy in PDF hoặc bất kỳ phương pháp nào khác, chất lượng thường sẽ rất tuyệt vời, vì tệp văn bản có thể được tạo từ văn bản gốc. Một số ký tự đặc biệt có thể bị biến dạng, nhưng văn bản đơn giản thường ổn.

Tuy nhiên, nếu tài liệu được tạo từ hình ảnh được quét, phần văn bản thường được tạo bởi quá trình xử lý hình ảnh OCR, có thể tạo ra kết quả khá tiếc, đặc biệt là nếu mục đích ban đầu không tối ưu cho mục đích.

Một chương trình xấu được sử dụng để tạo PDF hoặc cài đặt sai cũng có thể khiến phần văn bản bị cắt xén hoàn toàn, có thể, một số loại mã hóa chạy trên tệp sau khi được tạo.

Điểm mấu chốt là, nếu phần văn bản của tài liệu thực sự xấu, không có cách nào để làm cho nó tốt hơn. Đặt cược tốt nhất của bạn sẽ là loại bỏ hoàn toàn phần văn bản và yêu cầu chương trình làm lại quy trình OCR. Tôi nghĩ rằng có thể thực hiện được từ bên trong Acrobat, nhưng tôi không hoàn toàn chắc chắn.


1

Một lý do có thể cho việc này có thể là việc nhúng phông chữ trong PDF đang sử dụng mã hóa tùy chỉnh, không được áp dụng chính xác khi sao chép văn bản từ PDF.

Bạn có thể áp dụng các phương pháp khác nhau để tự cứu mình khỏi việc nhập thủ công tất cả nội dung.

  1. Bạn đã thử trích xuất văn bản bằng một trong những công cụ 'pdftotext.exe' có thể tải xuống trên toàn mạng? (Tôi muốn giới thiệu một cái được bao gồm trong ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip ).
  2. Phiên bản mới nhất của Acrobat Reader có tùy chọn "Lưu dưới dạng văn bản ..." . Điều này không sử dụng "copy'n'paste" (cung cấp cho bạn văn bản bị cắt xén), nhưng có thể sử dụng các thói quen phần mềm tương tự như được sử dụng để hiển thị văn bản trên màn hình và có thể tạo ra kết quả có thể sử dụng nhiều hơn.
  3. Nếu '2.' không hoạt động và nếu bạn có quyền truy cập vào Acrobat Professional: hãy thử chưng cất lại PDF bằng một trong các cấu hình Distiller nhúng phông chữ.
  4. Nếu '3.' không hoạt động, mặc dù bạn có quyền truy cập vào Acrobat Professional: cố gắng chưng cất lại tệp PDF, nhưng lần này bạn nên sử dụng tùy chọn 'in dưới dạng hình ảnh' (có sẵn thông qua nút 'Nâng cao' ở góc dưới bên trái của bản in chính hộp thoại). Đảm bảo bạn sử dụng 600dpi (mặc dù điều đó có thể tạo ra một tệp lớn). PDF kết quả bạn sau đó mở lại trong Acrobat Pro. Bây giờ áp dụng thuật toán 'OCR' của Acrobat cho tệp, điều này sẽ dẫn đến văn bản được nhúng (không được sử dụng để hiển thị trên màn hình trong Trình đọc, nhưng được sử dụng để tìm kiếm và tô sáng chuỗi). Bây giờ bạn có thể thử lại để trích xuất văn bản từ tệp PDF này, sử dụng một trong các phương pháp được thảo luận ở trên.

Đối với tôi, sử dụng Acrobat Pro XI để in lại thành PDF - nhưng đã chọn "In dưới dạng hình ảnh" (ở 600 dpi) trong hộp thoại ... nút / phụ nâng cao từ hộp thoại In ... - là mẹo. Sau đó, bạn cuối cùng có thể OCR kết quả đúng . Không có giải pháp nào khác được đề cập đến trang này hoạt động. Lưu ý: đối với một tài liệu lớn, việc này có thể mất một lúc và kết quả PDF có thể khá lớn.
Glenn Slayden

@GlennSlayden: Rất vui vì lời khuyên của tôi dành cho bạn ... Điều gì còn thiếu trong đó mà bạn nghĩ rằng nó vẫn không xứng đáng với một upvote?
Kurt Pfeifle

Ừm, tôi đã upvote. Nó vẫn hiển thị cho tôi là '1'. Khiếu nại duy nhất của tôi là câu trả lời của bạn ở phía dưới và tôi phải mất một lúc để tìm ra nó (không phải lỗi của bạn ...)
Glenn Slayden

Ok, @GlennSlayden, thì upvote đó chắc chắn đã được loooong trước đây (rất lâu trước khi nhận xét của bạn ở trên).
Kurt Pfeifle

Không, tôi đã nâng cấp "12 giờ trước" cùng lúc tôi viết bình luận ... Tôi vẫn thấy một mũi tên màu xanh (tôi tin) có nghĩa là phiếu bầu của tôi là (một) phiếu bầu hiện đang được đăng ký. Và tôi nhớ lại rằng đó là '0' trước khi tôi bỏ phiếu tối qua.
Glenn Slayden

1

Một trong những người dùng của tôi vừa báo cáo vấn đề tương tự (PDF được tạo bằng Distiller cho Windows), văn bản được sao chép chỉ là văn bản bị cắt xén và anh ta không thể tìm kiếm bên trong một tài liệu. Tôi đã thử trên máy Mac của mình và không tìm thấy bất kỳ vấn đề nào. Hóa ra, tôi đã sử dụng ứng dụng Preview của Apple, trong khi anh ấy sử dụng Adobe Reader trên máy Windows của mình. Sau đó, tôi đã thử Adobe Reader trên máy Mac của tôi cũng gặp phải hiệu ứng tương tự. Đối với tôi nó giống như:

  • Adobe Reader đang coyping và tìm kiếm trong văn bản đã lưu.

  • Bản xem trước của Apple sẽ sao chép và tìm kiếm sau khi áp dụng vectơ mã hóa.

Tôi không thể nói điều này chắc chắn, nhưng nó sẽ giải thích quan sát của tôi. Và nó thực sự sẽ cho phép thực hiện tất cả các loại mã hóa khi lưu các tệp kết hợp / giảm như được mô tả trong một bài đăng khác tại đây: với Xem trước bạn vẫn có thể lấy lại văn bản.

Đầu tiên tôi nghĩ sẽ hợp lý hơn khi mã hóa tập hợp con phông chữ nhúng thành các mục liền kề thay vì để lại các lỗ bên trong và sử dụng vị trí ký tự gốc. Nhưng sau đó tôi nhận ra rằng bằng cách sử dụng một vectơ mã hóa cho tập hợp phông chữ với các mục nhập ban đầu, các ký tự thường được sử dụng có thể có ít bit được đặt thành 1 trong byte của chúng và có thể được nén theo cách tốt hơn (nó có thể làm giảm sự xâm lấn của văn bản tổng thể theo cách này).


1

Tải nó lên tài liệu Google và sử dụng tùy chọn Xem> HTML đơn giản , cung cấp văn bản có thể sao chép văn bản chính xác đến khoảng 80% với một ít khoảng trống bị thiếu.

Chủ đề này với câu trả lời được chấp nhận cho cùng một vấn đề giải thích điều này với một ví dụ hoạt động.


1

Tôi chưa thử tùy chọn Google Docs vì nó vẫn không được hỗ trợ trong văn phòng của tôi. Tuy nhiên, bằng cách in tệp thành "ScanSoft PDF Tạo!" từ "Acrobat 9" (in toàn bộ tệp thành hình ảnh) và mở tệp đã in trong "Nuance PDF Converter" (nó nhắc tôi nếu tôi muốn làm cho tệp hình ảnh có thể tìm kiếm và có thể chỉnh sửa, mà tôi đã chọn), tôi đã có thể có một tài liệu Word tôi có thể dễ dàng sao chép và dán từ đó. Nó không hoàn hảo mặc dù chỉ có độ chính xác khoảng 80-90%. Nhưng này, bạn vẫn có tệp PDF gốc để so sánh và bù những phần không thể sửa được. Tiết kiệm thời gian từ việc gõ toàn bộ. 2c của tôi.


0

Tôi đã tạo một số tệp PDF văn bản có thể chỉnh sửa với phiên bản cũ của Scansoft PDF Converter cho Windows XP, sau đó kết hợp các trang trong chương trình Xem trước của Mac. Đối với mỗi trang riêng biệt, tôi có thể tìm kiếm, sao chép và xuất văn bản chính xác từ Adobe Reader trên máy Mac. Khi được kết hợp bởi Xem trước và được lưu dưới dạng một tệp, tất cả đều trông tốt trên màn hình, nhưng chỉ một vài đoạn có thể tìm kiếm / xuất chính xác. Vấn đề đó đã đưa tôi đến đây.

Các bài viết ở đây đã cho tôi một số gợi ý tốt (cảm ơn bạn!). Tôi nhìn vào các thuộc tính tập tin cho phông chữ. Các tệp trang đơn từ Win XP (nơi tất cả đều ổn) cho biết mã hóa là ANSI. Tệp được kết hợp trong Bản xem trước (trong đó văn bản sao chép bị cắt xén) hiển thị mã hóa cho hầu hết các phông chữ là "Tích hợp" với một số là "La Mã".

Giải pháp cho vấn đề của tôi là ngay dưới mũi tôi - chương trình Scansoft có thể kết hợp các tệp. Khi tôi sử dụng bộ kết hợp của Scansoft và mở tệp trên Mac, tất cả các phông chữ được hiển thị dưới dạng mã hóa ANSI và tất cả văn bản được xuất / sao chép hoàn hảo. Tại sao trên trái đất tôi không kết hợp chúng trong PDF Converter ở nơi đầu tiên, tôi không biết. Cảm ơn, áp phích!

Tương tự là mở các tệp trên hệ thống Linux.

Tôi biết điều này không giải thích các vấn đề chỉ có trong Windows - trừ khi PDF có nguồn gốc hỗn hợp tương tự?

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.