Tôi đã đọc về các thuật toán nén dữ liệu và giới hạn lý thuyết cho việc nén dữ liệu. Gần đây tôi gặp một phương pháp nén gọi là "Mã hóa Entropator Entropy", ý tưởng chính của phương pháp này là mã hóa tệp như các ký tự được trình bày trong tệp, tần số của chúng và chỉ số của các ký tự này được biểu thị bởi tệp.
Những tài liệu này có thể giúp giải thích phương pháp này:
https://arxiv.org/pdf/1703,08127
http://www-video.eecs.ber siêu.edu / con / dvdai / dcc2003.pdf
https://www.thinkmind.org/doad.php?articleid=ctrq_2014_2_10_70019
Tuy nhiên, trong tài liệu đầu tiên tôi đã đọc rằng bằng cách sử dụng phương pháp này, họ có thể nén một số văn bản xuống dưới giới hạn Shannon (Họ không xem xét không gian cần thiết để lưu tần số của các ký tự và không gian cần thiết để lưu meta dữ liệu của tập tin). Tôi đã nghĩ về nó và tôi thấy rằng phương pháp này sẽ không hiệu quả đối với các tệp rất nhỏ nhưng mặt khác nó có thể hoạt động tốt với các tệp lớn. Trên thực tế tôi không hiểu đầy đủ thuật toán này hoặc giới hạn Shannon rất rõ, tôi chỉ biết đó là tổng xác suất của mỗi ký tự nhân với của đối ứng xác suất.
Vì vậy, tôi có một số câu hỏi:
Phương pháp nén này có thực sự nén các tệp nhỏ hơn giới hạn Shannon không?
Có thuật toán nén nào nén các tệp xuống dưới giới hạn Shannon (câu trả lời cho câu hỏi này theo như tôi biết là không)?
Phương pháp nén có thể nén các tệp nhỏ hơn giới hạn Shannon từng tồn tại không?
Nếu mã hóa tổ hợp thực sự nén các tệp vượt quá giới hạn Shannon, không thể nén tệp này nhiều lần cho đến khi chúng ta đạt được kích thước tệp chúng ta muốn?