如何解决使用 Azure Databricks 将 Pyspark 数据帧附加到 StorageBlob 中的另一个 csv 文件
我有一个 xls 文件,我将它从 Azure 存储容器加载到我的 Azure 数据块中。我已将 blob 挂载为读取此文件的挂载点。在转换为 csv 文件后,需要将其附加到主文件中。 我试过下面的代码
final_df.select(cols).toPandas().to_csv(outfile,mode='a',header=False,index=False)
也使用 spark.sql.dataframe.writer
final_df.select(cols).coalesce(1).write.csv(outfile,mode='append',header=False)
在这两种情况下,都没有错误或操作不受支持的错误,但文件也没有附加到主数据文件中。我已经提到了一些帖子,但他们都提到了使用 python 文件打开函数。尝试了如下类似的方法
p_df = final_df.toPandas()
with open(outfile,'a') as fd:
p_df.to_csv(fd)
OSError Traceback (most recent call last)
OSError: [Errno 95] Operation not supported
During handling of the above exception,another exception occurred:
OSError Traceback (most recent call last)
<command-3424188746178105> in <module>
1 p_df = final_df.toPandas()
2 with open(outfile,'a') as fd:
----> 3 p_df.to_csv(fd)
OSError: [Errno 95] Operation not supported
有没有办法将新数据附加到 Azure databricks notebook 中的主 csv 文件?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。