Vì hôm nay tôi biết điều đó: điều tốt nhất để trích xuất văn bản từ PDF là TET, bộ công cụ trích xuất văn bản . TET là một phần của dòng sản phẩm PDFlib.com.
PDFlib.com là công ty của Thomas Merz. Trong trường hợp bạn không nhận ra tên anh ấy: Thomas Merz là tác giả của "Kinh thánh PostScript và PDF".
Hóa thân đầu tiên của TET là một thư viện . Người ta có thể có thể làm mọi thứ Budda006 muốn, bao gồm thông tin vị trí về mọi yếu tố trên trang. Oh, và nó cũng có thể trích xuất hình ảnh. Nó kết hợp lại hình ảnh được phân mảnh thành từng mảnh.
pdflib.com cũng cung cấp một hóa thân khác của công nghệ này, plugin TET cho Acrobat . Và hóa thân thứ ba là PDFlib TET iFilter . Đây là một công cụ độc lập cho máy tính để bàn của người dùng. Cả hai đều miễn phí (như trong bia) để sử dụng cho mục đích riêng tư, phi thương mại.
Và nó thực sự mạnh mẽ. Cách tốt hơn so với trích xuất văn bản của Adobe. Nó trích xuất văn bản cho tôi khi các công cụ khác (bao gồm cả Adobe) chỉ nhổ rác.
Tôi vừa thử nghiệm công cụ độc lập trên máy tính để bàn và những gì họ nói trên trang web của họ là đúng. Nó có một dòng lệnh rất tốt. Một số tệp kiểm tra PDF "có vấn đề" của tôi, công cụ xử lý hoàn toàn hài lòng.
Điều này từ bây giờ sẽ là đề xuất của tôi cho mọi yêu cầu trích xuất văn bản PDF phức tạp và đầy thách thức.
TET đơn giản là tuyệt vời. Nó phát hiện các bảng. Bên trong các bảng, nó xác định các ô trải dài trên nhiều cột. Nó xác định các hàng của bảng và nội dung của từng ô của bảng một cách riêng biệt. Nó xử lý rất tốt với các dấu gạch nối: nó loại bỏ các dấu gạch nối và khôi phục các từ hoàn chỉnh. Nó hỗ trợ các ngôn ngữ không phải ASCII (bao gồm cả CJK, tiếng Ả Rập và tiếng Do Thái). Khi gặp chữ ghép, nó khôi phục các ký tự gốc ...
Hãy thử một lần.