Định dạng các dòng khi sao chép từ PDF


1

Tôi đang cố gắng sao chép văn bản từ tệp PDF sang word, tuy nhiên khi tôi dán văn bản vào tệp word, các dòng trong tệp PDF sẽ "ngắn hơn", vì vậy nó không chiếm toàn bộ dòng trong word và tôi phải tự thủ công tham gia các câu để nó trông giống như bình thường (sử dụng backspace).

Tôi đã thử bản sao chép PDF, mặc dù nó hoạt động tốt, nó đã loại bỏ mọi ngắt dòng để không có đoạn nào được giữ lại, nhưng tệp tôi đang cố sao chép là khá lớn và tôi cần giữ lại các đoạn thực tế. Có cách nào để tạo từ phù hợp với các dòng nhiều nhất có thể và tôn trọng các đoạn thực tế không?

Câu trả lời:


0

Văn bản trong PDF bao gồm các đoạn văn bản được định vị tuyệt đối và trong trường hợp chung dòng và ngắt đoạn không được ký hiệu cụ thể. Vì vậy, nhiệm vụ xác định chính xác chúng trở thành một OCR, đây là một nhiệm vụ phức tạp và rất có thể bạn sẽ cần phần mềm phức tạp để đạt được kết quả khả quan.

Ví dụ, bản thân MS Word có tính năng nhập tài liệu PDF, nhưng nó cũng không phải lúc nào cũng nhận ra các dấu ngắt hoàn hảo (ví dụ: khi các đoạn văn bản hơi 'nghiêng', đó là trường hợp được quét và OCR-ed các tài liệu).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.