Tôi đang tìm một thư viện PDF cho phép tôi trích xuất văn bản từ tài liệu PDF. Tôi đã xem xét PyPDF và điều này có thể trích xuất văn bản từ tài liệu PDF rất độc đáo. Vấn đề với điều này là nếu có các bảng trong tài liệu, văn bản trong các bảng sẽ được trích xuất cùng dòng với phần còn lại của văn bản tài liệu. Điều này có thể có vấn đề vì nó tạo ra các phần văn bản không hữu ích và trông bị cắt xén (ví dụ: rất nhiều số được trộn với nhau).
Tôi muốn trích xuất văn bản từ tài liệu PDF, ngoại trừ bất kỳ bảng nào và định dạng đặc biệt nào. Có thư viện nào làm điều này không?