Nói ngắn gọn:
Để biết nó đã được nén chưa:
strings your.pdf | grep /Filter
Để (un) nén tệp PDF, sử dụng QPDF
qpdf --stream-data=compress your.pdf compressed.pdf
qpdf --stream-data=uncompress compressed.pdf uncompressed.pdf
giải trình:
Từ khóa "Bộ lọc" bên trong tệp pdf là một chỉ báo về phương pháp nén được sử dụng. Một số trong số họ là:
CCITT G3 / G4 - được sử dụng cho hình ảnh đơn sắc
JPEG - thuật toán mất dữ liệu được sử dụng cho hình ảnh
JPEG2000 - một giải pháp thay thế hiện đại hơn cho JPEG, cũng được sử dụng để nén hình ảnh
Flate - được sử dụng để nén văn bản cũng như hình ảnh
JBIG2 - thay thế cho Nén CCITT cho hình ảnh đơn sắc
LZW - được sử dụng để nén văn bản cũng như hình ảnh nhưng được thay thế bằng Flate
RLE - được sử dụng cho hình ảnh đơn sắc
ZIP - được sử dụng cho hình ảnh thang độ xám hoặc màu
(sao chép từ đây ).
Tuy nhiên, với cấu trúc tệp phức tạp PDF, phần lớn thời gian một phần (hoặc "luồng") của PDF sẽ bị nén theo một cách nào đó (và sẽ hiển thị khi grepping / Filter) trong khi một số phần khác sẽ không không có câu trả lời CÓ / KHÔNG cho câu hỏi liệu PDF có được nén hay không.
một cách để khắc phục điều này là thêm -c
tùy chọn vào grep, trả về số lần xuất hiện, do đó bạn có thể thấy nó được nén tương đối tốt như thế nào. ví dụ: nếu trả về ít hơn 10 thì nó không bị nén.strings
"large
.pdf" | grep -c /Filter
Một thuộc tính khác liên quan đến kích thước trong các tệp PDF là liệu chúng có được tối ưu hóa để truy cập nhanh hay không, với các tệp PDF "được tối ưu hóa" có kích thước lớn hơn, để trích dẫn từ wikipedia :
Có hai bố cục cho các tệp PDF, phi tuyến tính (không "tối ưu hóa") và tuyến tính ("tối ưu hóa"). Các tệp PDF phi tuyến tính tiêu thụ ít không gian đĩa hơn so với các bản sao tuyến tính của chúng, mặc dù chúng truy cập chậm hơn vì các phần dữ liệu cần thiết để lắp ráp các trang của tài liệu nằm rải rác trong tệp PDF. Các tệp PDF tuyến tính (còn được gọi là các tệp PDF "được tối ưu hóa" hoặc "tối ưu hóa web") được xây dựng theo cách cho phép chúng được đọc trong plugin trình duyệt Web mà không cần chờ toàn bộ tệp tải xuống, vì chúng được ghi vào đĩa trong một thời trang tuyến tính (như theo thứ tự). Các tệp PDF có thể được tối ưu hóa bằng phần mềm Adobe Acrobat hoặc QPDF.
Bạn có thể kiểm tra xem PDF có được tối ưu hóa hay không pdfinfo your.pdf
.
file
. Nó sẽ hiển thị cho dù tập tin được nén hay không.