如何解决使用Python在单个Excel中将大型CSV文件拆分为多个工作表
我正在使用这段代码来使用熊猫读取csv(大约1 GB),然后使用chunksize将其写入多个Excel工作表中。
with pd.ExcelWriter('/tmp/output.xlsx',engine='xlsxwriter') as writer:
reader = pd.read_csv(f'/tmp/{file_name}',sep=',',chunksize=1000000)
for idx,chunk in enumerate(reader):
chunk.to_excel(writer,sheet_name=f"Report (P_{idx + 1})",index=False)
writer.save()
这种方法要花费很多时间。有人可以提出任何减少这种时间的方法吗?
解决方法
几天前我遇到了同样的问题,所以我尝试了
您可以使用称为vaex的库 [1]:https://vaex.readthedocs.io/en/latest/
或者,如果您想使用熊猫来做,请尝试使用apache pyspark
或者使用可以使用具有1200积分的Google colud
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。