如何解决哪些放气zip算法特征会导致某些数据的重新压缩产生50%的压缩系数?
众所周知,重新压缩(压缩压缩的数据集)通常会产生非常低的压缩(或没有压缩)。
因此,我很惊讶地发现一个数据集,其中第二次ZIP重新压缩产生大约50%的压缩系数(通过Unix zip
工具的两次运行,在最大压缩系数({{1 }})。
因此,我很好奇:Deflate算法的哪些特征(限制)会导致这种行为?我尝试了其他程序,例如zstd之类的算法在第一次通过时产生了更好的压缩效果。
供参考,数据集为here。
解决方法
Deflate的匹配长度限制为258个字节。如果经常重复的弦长于此,则第二次压缩可能会产生结果。 zstd代码最多可匹配128K字节的长度。
gzip -9对您的数据一次给出36340381字节。 gzip -9对您的数据两次给出了18860632字节。 zstd -9曾经给出18985681字节。第二个zstd -9仅将其减少到18882745字节。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。