Đầu tiên, bạn phải hiểu PDF là gì. Các tệp PDF được thiết kế để bắt chước một trang in và chúng chỉ được thiết kế dưới dạng định dạng đầu ra, không phải là định dạng đầu vào. PDF về cơ bản là một bản đồ chứa vị trí chính xác của các ký tự (từng chữ cái hoặc dấu chấm câu, v.v.) hoặc hình ảnh. Trong hầu hết các trường hợp , một tệp PDF thậm chí không lưu trữ thông tin về nơi một từ kết thúc và một từ khác bắt đầu, ít thứ hơn như nghỉ mềm so với ngắt cứng cho kết thúc đoạn.
(Một vài tệp PDF gần đây lưu trữ một số thông tin về nội dung này, nhưng đó là một công nghệ mới và bạn sẽ may mắn tìm thấy các tệp PDF như thế. Ngay cả khi bạn đã làm, trình xem PDF của bạn có thể không biết về nó.)
Dù sao, tùy thuộc vào phần mềm của bạn để thực hiện một số loại "trí tuệ nhân tạo" để trích xuất chỉ từ các vị trí của các ký tự riêng lẻ là một từ, một đoạn văn, v.v. Các phần mềm khác nhau sẽ làm điều này tốt hơn các phần mềm khác và nó cũng sẽ phụ thuộc vào cách tạo ra PDF. Trong mọi trường hợp, bạn không bao giờ nên mong đợi kết quả hoàn hảo. Có PDF đầu ra không giống như có tài liệu nguồn. Tốt hơn nhiều để cố gắng để có được điều đó nếu bạn có thể.
Giải pháp chuẩn cho loại vấn đề của bạn là sử dụng Adobe Acrobat Professional (loại đắt tiền, không phải trình đọc miễn phí) để chuyển đổi PDF sang HTML. Ngay cả điều đó sẽ không nhận được kết quả hoàn hảo.
Có một phần mềm miễn phí có thể được sử dụng để trích xuất văn bản từ các tệp PDF với một số định dạng còn nguyên vẹn, nhưng một lần nữa, đừng mong đợi kết quả hoàn hảo. Xem, ví dụ, cỡ nòng (có thể chuyển đổi sang định dạng RTF), pdftohtml / pdfreflow hoặc trình xử lý văn bản AbiWord (với tất cả các plugin nhập / xuất được bật). Ngoài ra còn có một plugin nhập PDF cho OpenOffice.
Nhưng xin đừng mong đợi sự hoàn hảo với bất kỳ kết quả nào trong số này. Bạn đang đi ngược lại hạt gạo ở đây. PDF chỉ không có nghĩa là một định dạng đầu vào có thể chỉnh sửa.