Bạn hỏi:
- Điều này có thực sự khả thi như các tác giả đề xuất không? Theo bài báo, kết quả của họ rất hiệu quả và luôn nén dữ liệu đến kích thước nhỏ hơn. Không phải kích thước từ điển là rất lớn?
Phải, tất nhiên. Ngay cả đối với ví dụ được chọn bằng tay của họ ("NHỮNG BẠC FOX BẠC NHANH QUÁ NHIỀU DOG LAZY"), họ không đạt được nén, vì từ điển chứa mỗi chuỗi con 4 byte của văn bản (trừ 4 byte cho một lần lặp lại " THE ") ... và phiên bản" nén "của văn bản phải bao gồm toàn bộ từ điển cộng với tất cả số nguyên tố này.
- Điều này không thể được sử dụng để nén lại dữ liệu nén bằng cùng một thuật toán? Rõ ràng, và đã được chứng minh rằng các kỹ thuật như vậy (trong đó dữ liệu nén được nén lại nhiều lần nhất có thể, giảm đáng kể kích thước tệp) là không thể; thật vậy, sẽ không có sự lựa chọn nào giữa tập hợp tất cả dữ liệu ngẫu nhiên và dữ liệu nén. Vậy tại sao điều này cảm thấy như nó sẽ có thể?
Một lần nữa bạn dường như có một nắm bắt trực quan tốt của tình huống. Bạn đã nhận ra một cách trực giác rằng không có sơ đồ nén nào có thể có hiệu quả trên tất cả các đầu vào, bởi vì nếu có, chúng ta chỉ có thể áp dụng nó nhiều lần để nén bất kỳ đầu vào nào xuống một bit - và sau đó là hư vô!
Nói cách khác: Một khi bạn đã nén tất cả các tệp .wav của mình thành .mp3, bạn sẽ không nhận được bất kỳ cải thiện nào về kích thước tệp bằng cách nén chúng. Nếu máy nén MP3 của bạn đã hoàn thành công việc, sẽ không có bất kỳ mẫu nào còn lại để máy nén ZIP khai thác.
(Điều tương tự cũng áp dụng cho mã hóa: nếu tôi lấy một tệp số 0 và mã hóa nó theo thuật toán mã hóa mà tôi chọn, thì tệp kết quả tốt hơn là không thể nén được , nếu không thì thuật toán mã hóa của tôi bị rò rỉ "mẫu" vào đầu ra của nó!)
- Ngay cả khi kỹ thuật này vẫn chưa hoàn hảo, rõ ràng nó có thể được tối ưu hóa và cải thiện mạnh mẽ. Tại sao điều này không được biết đến / nghiên cứu rộng rãi hơn? Nếu thực sự những tuyên bố và kết quả thử nghiệm này là đúng, thì điều này không thể cách mạng hóa điện toán?
Những tuyên bố và kết quả thí nghiệm là không đúng sự thật.
Như Tom van der Zanden đã lưu ý, "thuật toán nén" của Chakraborty, Kar và Guchait không hoàn hảo ở chỗ nó không chỉ không đạt được bất kỳ tỷ lệ nén nào, mà còn không thể đảo ngược (trong toán học, "không tính toán") vô số các văn bản mà tất cả "nén" vào cùng một hình ảnh, bởi vì thuật toán của chúng về cơ bản là nhân và nhân là giao hoán.
Bạn sẽ cảm thấy tốt vì sự hiểu biết trực quan của bạn về các khái niệm này đã đưa bạn đến kết luận đúng ngay lập tức. Và, nếu bạn có thể dành thời gian, bạn nên cảm thấy thương hại cho các tác giả của bài báo rõ ràng đã dành rất nhiều thời gian để suy nghĩ về chủ đề mà không hiểu gì về nó.
Thư mục tệp một cấp trên URL bạn đã đăng chứa 139 "giấy tờ" có cùng chất lượng, tất cả rõ ràng được chấp nhận vào "Kỷ yếu hội thảo quốc tế về nghiên cứu mới nổi về máy tính, thông tin, truyền thông và ứng dụng". Đây dường như là một hội nghị giả mạo của loại thông thường. Mục đích của các hội nghị như vậy là cho phép các học giả lừa đảo tuyên bố "xuất bản trong một tạp chí", đồng thời cho phép các nhà tổ chức vô đạo đức kiếm được rất nhiều tiền. (Để biết thêm về các hội nghị giả, hãy xem chủ đề reddit này hoặc các bài đăng StackExchange khác nhau về chủ đề này .) Các hội nghị Sham tồn tại trong mọi lĩnh vực. Chỉ cần học cách tin vào bản năng của bạn và không tin tất cả những gì bạn đọc trong một "tiến trình hội nghị", và bạn sẽ làm tốt.