Làm cách nào để sao chép văn bản ra khỏi tệp PDF mà không mất định dạng?


41

Khi tôi sao chép văn bản từ một tệp PDF và vào một trình soạn thảo văn bản, nó sẽ bị sai lệch theo nhiều cách khác nhau. Định dạng như in đậm và in nghiêng bị mất; ngắt dòng mềm trong một đoạn văn bản được chuyển đổi thành ngắt dòng cứng; dấu gạch ngang để ngắt một từ trên hai dòng được giữ nguyên ngay cả khi chúng không nên; và dấu ngoặc đơn và kép được thay thế bằng? dấu hiệu.

Lý tưởng nhất là tôi muốn có thể sao chép văn bản từ PDF và định dạng được chuyển đổi thành mã HTML, "trích dẫn thông minh" được chuyển đổi thành "và" và ngắt dòng được thực hiện đúng cách. Có cách nào để làm điều này không?


2
Word 2013 có thể mở tệp PDF. Không hoàn hảo. Nhưng có thể làm được
pratnala

Câu trả lời:


54

Đầu tiên, bạn phải hiểu PDF là gì. Các tệp PDF được thiết kế để bắt chước một trang in và chúng chỉ được thiết kế dưới dạng định dạng đầu ra, không phải là định dạng đầu vào. PDF về cơ bản là một bản đồ chứa vị trí chính xác của các ký tự (từng chữ cái hoặc dấu chấm câu, v.v.) hoặc hình ảnh. Trong hầu hết các trường hợp , một tệp PDF thậm chí không lưu trữ thông tin về nơi một từ kết thúc và một từ khác bắt đầu, ít thứ hơn như nghỉ mềm so với ngắt cứng cho kết thúc đoạn.

(Một vài tệp PDF gần đây lưu trữ một số thông tin về nội dung này, nhưng đó là một công nghệ mới và bạn sẽ may mắn tìm thấy các tệp PDF như thế. Ngay cả khi bạn đã làm, trình xem PDF của bạn có thể không biết về nó.)

Dù sao, tùy thuộc vào phần mềm của bạn để thực hiện một số loại "trí tuệ nhân tạo" để trích xuất chỉ từ các vị trí của các ký tự riêng lẻ là một từ, một đoạn văn, v.v. Các phần mềm khác nhau sẽ làm điều này tốt hơn các phần mềm khác và nó cũng sẽ phụ thuộc vào cách tạo ra PDF. Trong mọi trường hợp, bạn không bao giờ nên mong đợi kết quả hoàn hảo. Có PDF đầu ra không giống như có tài liệu nguồn. Tốt hơn nhiều để cố gắng để có được điều đó nếu bạn có thể.

Giải pháp chuẩn cho loại vấn đề của bạn là sử dụng Adobe Acrobat Professional (loại đắt tiền, không phải trình đọc miễn phí) để chuyển đổi PDF sang HTML. Ngay cả điều đó sẽ không nhận được kết quả hoàn hảo.

Có một phần mềm miễn phí có thể được sử dụng để trích xuất văn bản từ các tệp PDF với một số định dạng còn nguyên vẹn, nhưng một lần nữa, đừng mong đợi kết quả hoàn hảo. Xem, ví dụ, cỡ nòng (có thể chuyển đổi sang định dạng RTF), pdftohtml / pdfreflow hoặc trình xử lý văn bản AbiWord (với tất cả các plugin nhập / xuất được bật). Ngoài ra còn có một plugin nhập PDF cho OpenOffice.

Nhưng xin đừng mong đợi sự hoàn hảo với bất kỳ kết quả nào trong số này. Bạn đang đi ngược lại hạt gạo ở đây. PDF chỉ không có nghĩa là một định dạng đầu vào có thể chỉnh sửa.


2
một phản hồi 5 năm sau: không có cải tiến lớn: Tôi đã phải chuyển đổi nó sang HTML (sử dụng acrobat x) sau đó chèn từng hàng vào bảng MSword. (Tiết kiệm cho word hoặc excel hoặc txt chỉ làm rối tung mọi thứ, sao chép quá khứ từ chrome cũng không hoạt động). Vẫn đang chờ đợi một phần mềm thông minh (rất).
JinSnow

nhấp chuột phải vào bảng chọn "sao chép với định dạng" cũng hoạt động, với các giới hạn được đề cập ở trên
JinSnow

1
Vì đây là câu trả lời được chấp nhận, tôi khuyên bạn cũng nên đề cập đến tùy chọn (mới hơn) mà pratnala đã viết trong bình luận của mình - mở pdf trực tiếp từ Word 2013. Trên một số pdf tôi đã thử nó cho kết quả tốt hơn tất cả các phần mềm trên.
Sinh ra ToCode

8

Một tùy chọn khác là tải xuống và bắt đầu sử dụng trình xem pdf miễn phí, Foxit (tốt). Sau đó, bạn có thể 'Lưu dưới dạng' và chọn .txt để chuyển đổi thành tệp văn bản. Điều đó sẽ bảo tồn tất cả các định dạng. Cho dù bạn có thể làm điều tương tự trong Adobe hay không bởi vì tôi đã ngừng sử dụng nó một thời gian trước khi tôi chuyển đổi sang Foxit.


"Lưu dưới dạng ... Văn bản" hoạt động với tôi với một số người xem pdf miễn phí.
Jeff

Tôi sử dụng Foxit và chỉ cần thử nó, tôi sẽ không nói nó được bảo tồn định dạng. Và tất cả những gì tôi muốn là kết thúc dòng đàng hoàng và mỗi đoạn như một đoạn văn.
pgr

Sử dụng txt, bạn sẽ mất tất cả các định dạng: phông chữ, đậm, in nghiêng, màu sắc và tất nhiên là các tùy chọn nâng cao hơn
skan

Foxit Reader đã làm việc rất tốt cho tôi
Michael Tranchida

5

Có một công cụ trực tuyến rất tốt tên là Sej-da . Giao dịch của nó với Thao tác PDF nâng cao. Không có phần mềm để tải về. Vì nó là một công cụ trực tuyến mới nên hiện tại nó vẫn đang trong giai đoạn Beta. Nó cho phép bạn trích xuất văn bản từ PDF, cũng như cung cấp vô số các chức năng PDF khác

http://www.sejda.com/

Một đánh giá video ngắn về các chức năng sejda đã được thực hiện vào ngày 14 tháng 11 năm 2012 bởi Bản sửa đổi 3 có thể tìm thấy ở đây:

http://revision3.com/tzd Daily / sejda-online-pdf


1
Người ta vẫn có thể tải xuống công cụ dòng lệnh: sejda.org/doad (Tôi không nghĩ rằng nó cho phép trích xuất văn bản với định dạng?)
Arjan

Tôi đã giới thiệu Sejda trên Arjan
Simon

1
Huh? Tôi chỉ có nghĩa là: bạn đang nói đó là một công cụ trực tuyến, nhưng người ta cũng có thể tải xuống điều tương tự. Ngoài ra, nhìn sâu hơn vào nó: Tôi không nghĩ rằng nó sẽ giữ nguyên định dạng, như đã được yêu cầu?
Arjan

Tôi nhận thức rõ việc bảo quản định dạng đã được yêu cầu, nhưng trừ khi bạn thử, bạn sẽ không bao giờ biết.
Simon

Là một công cụ miễn phí với vô số tính năng và thậm chí không có bản beta - không có gì để mất, nhưng hãy thử. Với thời gian, bộ tính năng của nó có thể sẽ được mở rộng, nhưng bây giờ không thể thực sự phàn nàn.
Simon

5

Mở tệp PDF của bạn bằng trình duyệt (Google chrome và firefox được kiểm tra) sau đó sao chép văn bản của bạn ở đó.


Đáng buồn thay, điều này không làm việc cho tôi trong Firefox.
Reb

gần. FF giữ kích thước phông chữ ít nhất. Chrome thất bại thảm hại, thậm chí không có nguồn cấp dữ liệu.
nd34567s32e

Kể từ tháng 10 năm 2019, mở một tệp PDF trong Chrome và sao chép / dán vào trình chỉnh sửa văn bản ít nhất giữ được dòng cuối (nhưng thật đáng buồn, không có bất kỳ khoảng trắng hàng đầu nào trên các dòng).
Tài liệu

4

Bạn có thể sử dụng Adobe Acrobat Pro cho việc này.

Đối với bảng: Với Acrobat 9/10, có một tính năng chọn bảng. Với Acrobat X, bạn có thể chỉ cần nhấp vào Lưu dưới dạng> Bảng tính> Excel. Nó thậm chí còn ghép các trang thành một bảng tính dài. Tính năng tuyệt vời.

Đối với văn bản: Một tính năng tương tự tồn tại để xuất sang MS Word. Lưu dưới dạng> Word> Word Doc.

Nguồn:


0

Foxit sẽ chuyển đổi giữa việc hiển thị tệp gốc dưới dạng PDF bình thường hoặc dưới dạng văn bản bằng cách nhấn Ctrl + 6 (Với một chút thay đổi với mức thu phóng của chế độ văn bản, không có nhiều bước nhảy qua lại giữa đọc và sao chép)


0

Tôi thấy điều này rất hữu ích ( Hủy bỏ ngắt dòng ):

Dưới đây là một mẹo hữu ích để nhanh chóng giải quyết vấn đề này mà không cần phải xóa tất cả các ngắt dòng bằng tay. Về cơ bản, tất cả những gì nó làm là tự động thay thế tất cả các ngắt dòng không mong muốn bằng một khoảng trắng, làm cho tất cả các văn bản chạy cùng nhau thành một đoạn duy nhất:

1- sao chép văn bản bạn muốn từ PDF.

2- dán vào tài liệu Word mới.

3- bấm vào chỉnh sửa và sau đó thay thế

4 - hãy chắc chắn rằng bạn đang ở trong khu vực tìm thấy những gì

5- bấm vào Thêm nhiều hơn nữa

6- chọn đoạn văn bản đánh dấu số đỉnh (đầu danh sách)

7- nhấp vào thay thế trên mạng với trường

8- nhấn phím cách một lần

9- nhấp vào thay thế tất cả

10- nhấp vào ok ok, sau đó đóng hộp Tìm & thay thế.


-1

Bạn có thể sao chép từ trình đọc adobe vào MS Excel và định dạng (bảng) theo cách bạn muốn, sau đó sao chép và dán từ Excel. Giải pháp này hoạt động rất tốt. Bạn không cần phải mua bản sao chuyên nghiệp đắt tiền của adobe.


Câu hỏi thảo luận về văn bản. Bạn có nghĩ rằng đây sẽ là một giải pháp chung tốt cho văn bản, bao gồm chuyển đổi định dạng sang mã HTML không?
fixer1234

-1

Tôi đã cố lưu văn bản và định dạng của pdf được sắp xếp trong một bảng. Trong Acrobat Professional, tôi nhận ra có tùy chọn 'Save As' cho phép lưu dưới dạng tài liệu excel. Điều này làm việc tốt cho nhu cầu của tôi. Tôi cũng nhận thấy có một tùy chọn tài liệu Save As Word là tốt. Tôi đã không thử nó mặc dù.


2
Điều này trùng lặp câu trả lời của người dùng156787.
fixer1234
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.