Một số tỷ lệ nén lossless điển hình là gì?


8

Một khách hàng đang cố gửi cho tôi tệp có giá trị 250 GB. Sau khi thử nhiều cách chia sẻ dữ liệu, anh ấy đã gửi cho tôi một thư mục nén chỉ có kích thước 4 GB. Nghe có vẻ như quá sức nén đối với tôi - Tôi không nghĩ khi tôi nén những thứ tôi từng giảm hơn 20% kích thước.

Một số tỷ lệ nén không tổn thất điển hình mà người ta sẽ thấy trong thực tế là gì? (Hoặc cách khác, một phạm vi.)

CẬP NHẬT: Tôi nhận ra không thể nói mà không thể đoán được nội dung thông tin thực tế, vì vậy có lẽ đây là một câu hỏi không hay. Tôi không thể chia sẻ dữ liệu của khách hàng. Nhưng nhìn vào các XMLtập tin, có rất nhiều cụm từ lặp đi lặp lại, vd

<thing>
    <property="1" value="2" />
    <property="3" value="4" />
    <property="5" value="6" />
    <property="7" value="8" />
    <property="9" value="10" />
    <property="11" value="12" />
    <property="13" value="14" />
</thing>

mà dường như khá nén.


5
Tôi vừa tạo một tệp 1 GB gồm tất cả các byte rỗng và nó được nén thành tệp zip 1 MB, cho tỷ lệ nén 900: 1. (Nén nó thành cụm từ 1000000000 null bytessẽ là tỷ lệ nén 50.000.000: 1.)
endolith

Tỷ lệ bạn đề cập 250: 4 dường như có thể, xem xét nguồn (tệp văn bản) bạn đã tải lên ở đây.
Fat32

Câu trả lời:


3

Tài liệu khảo sát của tôi về nén, "Khảo sát các phương pháp kiến ​​trúc để nén dữ liệu trong bộ nhớ cache và hệ thống bộ nhớ chính" , cho thấy hầu hết các kỹ thuật thực tế về điểm chuẩn chung đều đạt tỷ lệ nén ~ 2X và một số lên tới 4X, mặc dù tiềm năng cao hơn (ví dụ ~ 16X trường hợp) tồn tại (xem Mục 2.2). Lý do không đạt được tiềm năng đầy đủ là các kỹ thuật có tỷ lệ nén cao hơn cũng có chi phí hoạt động cao hơn (ví dụ: phần cứng bổ sung tiêu thụ nhiều năng lượng, xử lý thêm, v.v.) hoặc chúng có thể không đủ chung (ví dụ: nén tệp với tất cả các số không).


8

Nó thực sự phụ thuộc vào mức độ dư thừa trong dữ liệu. Nếu tất cả 250GB chỉ là '0', thì bạn có thể có được mức nén tuyệt vời.

Trang này hiển thị một số kết quả để nén văn bản tiếng Anh. Nó nén 2.988.578 byte giá trị văn bản bằng các kỹ thuật khác nhau. Ba vị trí hàng đầu là: 330,571 (88,94%), 333,759 (88,83%) và 352,722 (88,20%).

Liên quan điều này trở lại trường hợp của bạn: điều đó có nghĩa là 250 GB sẽ nén (tốt nhất) thành 27,65GB.

Vì vậy, có lẽ có rất nhiều bản vá lỗi, lặp đi lặp lại trong dữ liệu?


CẬP NHẬT:

Dựa trên chỉnh sửa của bạn, đây là một bài viết khác về tốc độ nén XML . Ảnh chụp nhanh (Hình 8; ảnh chụp màn hình bên dưới) là chúng dường như thấy tốc độ nén nằm trong khoảng từ 1 (không có) đến khoảng 50 tối đa. Điều đó cho thấy rằng bạn đúng khi nghi ngờ về tốc độ nén 62,5 đến 1 (250 đến 4) của khách hàng.

nhập mô tả hình ảnh ở đây


Câu trả lời tuyệt vời Peter và @endolith. Tôi đã cập nhật câu hỏi dựa trên câu trả lời của bạn. Rất hữu ích.
đẳng cấu
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.