如何解决快速压缩的镶木地板文件出现意外的数据大小问题
df1 - large dataset
df2 = df1.sample(tiny_fraction)
df1 is written to disk as a parquet with snappy compression (~75GB)
df2 is written to disk as a parquet with snappy compression (~90GB)
df3 = read df2's saved parquet
# set sql context to use snappy compression
df3.partition(1).save() -> (~100MB)
df4 = read df1's saved parquet
df4.sample(tiny_fraction).partition(1).save() -> (~100MB)
子采样数据帧(未重新分区)的文件大小大于原始数据集 有没有人知道为什么会发生这种情况?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。