Có tỷ lệ nén gz cải thiện theo thời gian?


7

Tôi có một số quy trình tạo ra một luồng hàng triệu dòng rất giống nhau. Tôi đang dẫn nó đến gz. Liệu tỷ lệ nén có cải thiện theo thời gian trong một thiết lập như vậy không? Tức là tỷ lệ nén tốt hơn cho 1 triệu dòng tương tự, hơn là 10.000?

Câu trả lời:


8

Nó làm đến một điểm nhất định và điều này phát triển ra. Các thuật toán nén có một hạn chế về kích thước của các khối mà chúng nhìn vào ( bzip2) và / hoặc trên các bảng mà chúng giữ với thông tin về các mẫu trước đó ( gzip).

Trong trường hợp của gzip, một khi một bảng đầy đủ các mục cũ sẽ bị đẩy ra và nén không cải thiện thêm. Tùy thuộc vào yếu tố chất lượng nén của bạn ( -0đến -9) và tính lặp lại của đầu vào của bạn, việc điền này tất nhiên có thể mất một lúc và bạn có thể không nhận thấy.


4

Không nhiều. "Khoảng cách" được bao phủ bởi thuật toán DEFLATE gzipsử dụng được giới hạn ở 32 KB.

Liên kết Wikipedia -> DEFLATE

Đó là giá trị điểm chuẩn so với các gzipmức nén khác nhau và cũng xem xét bzip2xz .


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.