Tôi có một người bạn bị mù và tôi có một bản PDF mà tôi muốn cho anh ấy đọc.
PDF có khoảng 200 trang văn bản được thiết kế đẹp mắt (với một vài hình ảnh và số liệu có chứa văn bản, nhưng chúng hiếm khi được chọn bằng cách dọn dẹp thủ công). Thật không may, cấu trúc logic của PDF được thể hiện rất tệ: PDF không biết về luồng văn bản hai cột của nó và không có mục nào trong mục lục và mục lục là liên kết thực sự.
Tôi có quyền truy cập dễ dàng vào máy Linux và truy cập dễ dàng hơn một chút vào máy Windows XP và tôi biết cách của mình xung quanh các biểu thức thông thường và ngôn ngữ kịch bản để tự động hóa quá trình xử lý bài.
Cho đến nay tôi đã tìm được cách cắt PDF xuống một nửa theo chiều dọc (sử dụng mã từ http://snipplr.com/view/18924/split-crop-double-page-pdfs-in-two/ , sau khi chuyển đổi PDF sang PDF1.4 để không chứa một dòng chéo hoặc bất cứ thứ gì nó được gọi), sao cho hầu hết nội dung theo đúng thứ tự, và sau đó sử dụng pdftohtml
để trích xuất văn bản với một số đánh dấu. Thật không may, điều này không thể tái tạo cấu trúc logic của tài liệu (nó nhận ra một số dấu in nghiêng, nhưng đã mất tất cả các tiêu đề chương, phần và phần phụ, luôn được tô sáng bằng cách sử dụng nhất quán kích thước phông chữ và màu sắc, không đề cập đến ngắt đoạn Vân vân.)
Tôi có hy vọng rất cao ở Calibre , nhưng công cụ chuyển đổi đó cũng không thể xử lý các tệp pdf hai cột được đánh dấu xấu và cũng không thể lấy được cấu trúc từ các phông chữ được sử dụng, mặc dù nó có một số lợi thế để giữ các đoạn văn với nhau.
Làm cách nào để chuyển đổi PDF của tôi thành định dạng phù hợp cho người mù truy cập?