Tôi có một tệp PDF chứa bản đồ của tòa nhà tôi làm việc ở đây:
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
Các tệp nguồn ban đầu đã bị mất và tôi đã được yêu cầu trích xuất hình ảnh bản đồ, tốt nhất là không có văn bản và biểu tượng được phủ lên trên chúng. Điều này đã được chứng minh là khó khăn khó khăn.
Cho đến nay, tôi đã thử các chương trình GUI sau:
- Adobe Reader: cho phép tôi chọn văn bản, nhưng không phải hình nền
- FoxIt PDF Viewer: cho phép tôi chọn văn bản, nhưng không phải hình ảnh nền
- XPDF trên Ubuntu 10.10: cho phép mes chọn văn bản, nhưng không phải hình ảnh nền
Và các chương trình dòng lệnh sau:
- pdfimages: trích xuất các biểu tượng chỉ phòng tắm tốt, nhưng không phải hình ảnh nền
- pdftohtml: giống như pdfimages, cộng với nó làm cho một tài liệu HTML được đánh dấu kém
- pdfextract: giống như pdfimages
- convert: hình ảnh được lưu thành công, nhưng với văn bản được ghi vào chúng
Tôi thậm chí đã thử mở PDF bằng tay trong trình soạn thảo văn bản và trích xuất các đối tượng luồng bằng cách dán chúng vào một tệp mới và lưu nó với một phần mở rộng .jpg, .png hoặc .bmp (lần lượt từng phần). Xem xét làm thế nào tôi biết ít về cấu trúc bên trong của các tệp PDF, không có gì ngạc nhiên khi điều này không hoạt động.
Vậy ... có cách nào tôi có thể lấy lại hình ảnh bản đồ từ thứ này mà không cần lấy văn bản và biểu tượng không?
qpdf
để chuyển đổi các phần nhị phân thành ASCII càng xa càng tốt. (2) Sử dụng trình chỉnh sửa văn bản để làm cho tất cả văn bản trở nên vô hình mà tôi không muốn thấy trên màn hình hoặc trong bản in (có thể dễ dàng đạt được và không làm hỏng bảng XRef bằng cách bật cờ vô hình ). (3) Chưng cất lại kết quả với Ghostscript để làm giảm kích thước của nó càng nhiều càng tốt. - Thật không may, tập tin của bạn không còn có thể tải xuống để trình bày quy trình ...