我有一个
python方法,它需要从API收集大量数据,将其格式化为CSV,压缩它并将结果流回来.
我一直在谷歌搜索,我可以找到的每个解决方案要么写入临时文件或将整个存档保存在内存中.
内存绝对不是一个选项,因为我会很快得到OOM.写入临时文件有很多与之相关的问题(此框目前仅使用磁盘进行日志,下载开始前的更长时间,文件清理问题等等).更不用说这只是令人讨厌的事实.
我正在寻找一个可以让我做类似…的图书馆
C = Compressor(outputstream) C.BeginFile('Data.csv') for D in Api.StreamResults(): C.Write(D) C.CloseFile() C.Close()
换句话说,当我写入数据时,将写入输出流的东西.
我已经设法在.Net和PHP中做到了这一点 – 但我不知道如何在Python中处理它.
通过“大量”数据来看待事物,我的意思是我需要能够处理高达~10 Gb的(原始纯文本)数据.这是大数据系统的导出/转储过程的一部分.
解决方法
正如
gzip module文档所述,您可以将类文件对象传递给GzipFile构造函数.
由于python是duck-typed,你可以自由地实现自己的流,如下所示:
由于python是duck-typed,你可以自由地实现自己的流,如下所示:
import sys from gzip import GzipFile class MyStream(object): def write(self,data): #write to your stream... sys.stdout.write(data) #stdout,for example gz= GzipFile( fileobj=MyStream(),mode='w' ) gz.write("something")
原文地址:https://www.jb51.cc/python/186684.html
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。