Bạn có thể dễ dàng liệt kê hoặc trích xuất tất cả hình ảnh từ PDF (hoặc chỉ từ một phạm vi trang cụ thể) bằng công cụ dòng lệnh pdfimages
. Công cụ này có sẵn cho Linux, Unix, Mac OS X và Windows.
pdfimages -list -f 3 -l 7 my.pdf
Lệnh trên liệt kê tất cả các hình ảnh từ trang 3 ( -f
"đầu tiên") đến trang 7 ( -l
"cuối cùng") mà không trích xuất chúng.
Các phiên bản gần đây nhất pdfimages
thậm chí bao gồm thông tin bổ sung, chẳng hạn như kích thước chiều rộng / chiều cao của hình ảnh, tỷ lệ nén, không gian màu, độ sâu bit, mã hóa hình ảnh và độ phân giải kết quả so với kích thước của trang PDF:
kp@mbp:> pdfimages -list -f 3 -l 7 porsches-a4.pdf
page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
3 0 image 1920 1440 rgb 3 8 jpeg no 20 0 175 175 182K 2.2%
4 1 image 1920 1440 rgb 3 8 jpeg no 26 0 175 175 130K 1.6%
5 2 image 1920 1440 rgb 3 8 jpeg no 32 0 175 175 92.1K 1.1%
6 3 image 1920 1440 rgb 3 8 jpeg no 38 0 175 175 233K 2.9%
7 4 image 1920 1440 rgb 3 8 jpeg no 44 0 175 175 238K 2.9%
Để trích xuất hình ảnh của một trang cụ thể dưới dạng JPEG, hãy sử dụng -j
tham số:
kp@mbp:> pdfimages -j -f 11 -l 11 porsches-a4.pdf prefix
Điều này sẽ trích xuất tất cả các hình ảnh từ trang 11. Tên của họ sẽ là prefix-000.jpg
, prefix-001.jpg
, prefix-002.jpg
, vv
LƯU Ý: Đôi khi trích xuất trực tiếp dưới dạng JPEG là không thể. pdfimages
vẫn sẽ trích xuất chúng, mặc dù trong PNM
hoặc PPM
định dạng. Bạn có thể dễ dàng chuyển đổi chúng thành PNG hoặc JPEG bằng cách sử dụng convert
lệnh của ImageMagick :
convert some.ppm some.png
convert some.pnm some.jpg