微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

哪些放气zip算法特征会导致某些数据的重新压缩产生50%的压缩系数?

如何解决哪些放气zip算法特征会导致某些数据的重新压缩产生50%的压缩系数?

众所周知,重新压缩(压缩压缩的数据集)通常会产生非常低的压缩(或没有压缩)。

因此,我很惊讶地发现一个数据集,其中第二次ZIP重新压缩产生大约50%的压缩系数(通过Unix zip工具的两次运行,在最大压缩系数({{1 }})。

因此,我很好奇:Deflate算法的哪些特征(限制)会导致这种行为?我尝试了其他程序,例如zstd之类的算法在第一次通过时产生了更好的压缩效果

供参考,数据集为here

解决方法

Deflate的匹配长度限制为258个字节。如果经常重复的弦长于此,则第二次压缩可能会产生结果。 zstd代码最多可匹配128K字节的长度。

gzip -9对您的数据一次给出36340381字节。 gzip -9对您的数据两次给出了18860632字节。 zstd -9曾经给出18985681字节。第二个zstd -9仅将其减少到18882745字节。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。