Không thể sao chép văn bản từ tệp pdf


40

Tôi đang sử dụng trình đọc PDF foxit để xem sách giáo khoa của mình. Tôi muốn sao chép văn bản từ tệp pdf vào một tài liệu word nhưng nó sẽ không cho phép tôi. Tôi có thể chọn văn bản tốt nhưng tùy chọn sao chép văn bản không có sẵn. Tôi có thể sao chép văn bản từ các tài liệu khác nhưng không phải một số. Có cách nào để có được sự bảo vệ này trong các cửa sổ không?


Tôi thấy câu trả lời của tôi không hiệu quả với bạn, vì vậy bạn đã đăng một tiền thưởng. Nếu bạn đăng ở đâu đó một ví dụ về pdf như vậy, tôi sẽ xem xét nó.
harrymc

@harrymc: Cụ thể, tôi đang tìm cách sao chép các giá trị từ bảng 6.15 của acousticslab.org/ con
VassilakisP2001Dissertation.pdf

@endolith: Xem câu trả lời mới của tôi.
harrymc

Câu trả lời:


29

Các tập tin pdf có thể đã bị khóa chống sao chép văn bản. Dưới đây là hai cách để mở khóa:

  1. Nếu pdf chưa bị khóa khi in, bạn có thể in nó ra máy in pdf ảo để tạo tệp mở khóa. Xem điều này:
    "Xóa mật khẩu và mở khóa PDF được bảo vệ được phép in mà không cần biết bí mật" .
  2. Nếu chức năng in đã bị khóa, hãy xem phần này:
    "Xóa các hạn chế và giải mã các tệp PDF được bảo vệ bằng mật khẩu bằng PDF Unlocker" .

Bạn có thể xem nếu PDF bị khóa để sao chép. Từ menu Tệp, chọn Thuộc tính và trên tab Bảo mật cho biết liệu Sao chép nội dung có được phép hay không.
Rob Sedgwick

Đã thử in PDF. Các tập tin in không cho phép chọn văn bản, có vẻ như nó đã chuyển đổi văn bản thành hình ảnh.
queezz

@queezz: PDF phải có chứa hình ảnh để bắt đầu.
harrymc

@harrymc Vâng, có hình ảnh. Nhưng văn bản cũng được chuyển đổi thành hình ảnh. Tùy chọn Google Chrome hoạt động tốt trên cùng một tài liệu.
queezz

Liên kết đầu tiên của bạn liên kết đến primopdf.com/installers/4.0.1/FreewarePrimo64Setup.exe , điều này thật tệ, nó không hoạt động và có vẻ như bạn thậm chí không lưu trữ nó vào archive.org. Liên kết thứ hai của bạn là ok nhưng nó liên kết đến một trang chia sẻ tệp dfiles.eu/files/7kiqyvswk mặc dù vậy tệp vẫn ổn, được kiểm tra bằng virustotal. Nhưng không dễ để tìm thấy vì có nhiều liên kết khác nhau trên trang mydigitallife. Đó là nơi ghi "PDF Unlocker là một công cụ miễn phí nhưng thân thiện với người dùng, có thể tải xuống qua liên kết tại đây (phiên bản hiện tại 1.0.4)."
barlop

25
  1. Mở tệp PDF trong Google Chrome (kéo và thả tệp PDF vào Chrome).
  2. In trang cụ thể dưới dạng PDF hoặc chỉ mở bản xem trước in.
  3. Bây giờ bạn có thể sao chép văn bản từ bản xem trước in hoặc xuất PDF. Nhưng tôi không nghĩ rằng bạn có thể sao chép bảng trực tiếp.


4
Điều này làm việc cho tôi, quá. Đây là phương pháp dễ nhất tôi thấy ở đây.
endolith

3
Hoàn toàn rực rỡ. Ồ, nhân tiện, bạn có thể kéo tệp vào thanh tab của Chrome để nhanh chóng mở chúng.
iono

Cả hai phương pháp này đều không phù hợp với tôi trong Chrome 53. Lỗ hổng có thể bị đóng không?
Simon East

11

Tôi đã có thể tạo phiên bản không có DRM của tệp PDF của bạn bằng Ghostscript (có sẵn cho Windows).

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=stripped.pdf VassilakisP2001Dissertation.pdf

Tệp kết quả stripped.pdfcó thể được tải trong Adobe Reader và Reader sẽ vui vẻ cho phép bạn sao chép bất kỳ phần nào của nó mà bạn muốn. Nó cũng bảo tồn hầu hết các định dạng của bảng.


Điều này thật tuyệt vời. Kế toán thuế của tôi từ chối cung cấp cho tôi các tệp PDF không phải DRM, cũng như mật khẩu để xóa DRM. Điều này giải quyết vấn đề của tôi. Làm tốt lắm
kevinarpe

Nếu PDF có mật khẩu, hãy đảm bảo bao gồm -sPDFPasswordkhóa ( -sPDFPassword=password).
palswim

2

Tôi đã có thể sao chép bảng từ tệp PDF của bạn thành công bằng cách sử dụng Okular (đối với Linux; một phần của KDE). Để làm điều này, tôi đã phải vào cài đặt của Okular và bỏ chọn "Tuân thủ các hạn chế DRM."

Tôi biết rằng điều này không thực sự giúp ích cho bạn nhiều vì bạn đang chạy Windows, nhưng có khả năng nếu bạn có một máy Linux tiện dụng hoặc sẵn sàng cài đặt nó.

Thật không may, nó là văn bản đơn giản không có định dạng, nhưng có vẻ như không quá khó để tạo lại bảng. Bạn có thể xem kết quả của cuộc phiêu lưu sao chép và dán của tôi ở đây .


Đó là những gì VirtualBox dành cho. : DI cũng có thể sao chép văn bản đơn giản mà không cần định dạng, nhưng bằng cách chọn một cột tại một thời điểm, nó khá dễ dàng để xuất.
endolith

Có vẻ như điều này là tốt nhất cho các bảng số, vì Okular cho phép bạn thực hiện lựa chọn văn bản hình chữ nhật và trích xuất một cột theo thứ tự.
endolith

Đối với các cột đơn, có lẽ là như vậy. Đối với toàn bộ bảng, xem câu trả lời khác của tôi .
Michael Hampton

Lưu ý rằng Okular có thể chạy trên Windows. Trong thực tế, rất nhiều phần mềm KDE có thể chạy trên windows .
Bakuriu

1

Bạn có thể sử dụng GT Text là một chương trình dịch hình ảnh (cũng là pdf snapshots = image) thành văn bản. Bạn có thể chọn khu vực và sao chép nó vào clipboard Nó miễn phí

Trang chủ chính thức là http://gttext.googlecode.com


1

nếu bản sao bị mờ đi, vì bây giờ nghi ngờ là dành cho bạn, thì PDF bị 'khóa', nó có thể được đọc nhưng thực sự ngăn bạn sao chép / dán bất cứ thứ gì từ nó.

Trang web này sẽ mở khóa PDF

https://smallpdf.com/unlock-pdf


0

Nếu bạn chỉ tìm đoạn trích ngắn, bạn có thể thường nhập một vài từ vào google bên trong dấu ngoặc kép và tìm trích dẫn chính xác đã được quét ở một số định dạng khác hoặc được người khác nhập vào.

Một tùy chọn khác là "Tài liệu từ ảnh" trong ứng dụng Google Docs Android, sẽ đưa văn bản qua OCR. Điều này là dễ bị lỗi, tất nhiên.

Tôi muốn chức năng khóa PDF không bao giờ tồn tại. :(


0

Trả lời cho endolith:

PDF của bạn được bảo vệ chống sao chép, nhưng không được bảo vệ chống in.

Vì vậy, tôi đã in một trang chứa bảng 6.15 sang một tệp PDF khác không được bảo vệ chống sao chép, chọn và sao chép bảng, sau đó dán nó vào Word. Thật ngạc nhiên, kết quả của việc dán là rác hoàn toàn.

Bây giờ tôi đã xem xét thêm về bảng này và tìm thấy một kết quả rất đáng ngạc nhiên: Đây không phải là một bảng!

Nó thực sự là một đoạn phim của các đoạn văn bản nhỏ, được định vị trên trang để trông giống như một cái bàn. Nhưng đây không phải là một bảng thực sự.

Điều tốt nhất bạn có thể làm là viết lại toàn bộ dưới dạng bảng hoặc chỉ sử dụng trong tác phẩm của bạn một ảnh chụp màn hình của văn bản được lắp ráp giống như bảng này.

Đây là ảnh chụp màn hình của tôi về bảng, như được lấy từ tài liệu pdf một trang được tạo của tôi :

hình ảnh


Tôi đã cố in nó với 2 chương trình nhưng tất cả những gì tôi nhận được là một trang trống.
endolith

Sử dụng Foxit Reader , tôi định vị chính mình trên trang, sau đó in trang hiện tại sang máy in pdf (Tôi đã sử dụng Cute Pdf Writer ). Tôi sẽ cố gắng phân tích vấn đề với việc sao chép bảng tối nay,
harrymc

Tôi đã thử PrimoPDF và qvPDF (sử dụng GhostScript)
endolith

Xem bổ sung trên của tôi.
harrymc

... Tôi cũng đã tải bản pdf một trang của mình lên đây (thời gian chờ 60 giây).
harrymc

0

Một khả năng khác là Evince .

Trong Windows , nó dường như hỗ trợ sao chép theo mặc định.

Trong Linux, sao chép có thể được bật bằng cách kiểm tra override_restrictionscài đặt nếu chưa có, làm theo các hướng dẫn sau ( dconf-editor/org/gnome/evinceoverride_restrictions).


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.