微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用 Azure Databricks 将 Pyspark 数据帧附加到 StorageBlob 中的另一个 csv 文件

如何解决使用 Azure Databricks 将 Pyspark 数据帧附加到 StorageBlob 中的另一个 csv 文件

我有一个 xls 文件,我将它从 Azure 存储容器加载到我的 Azure 数据块中。我已将 blob 挂载为读取此文件的挂载点。在转换为 csv 文件后,需要将其附加到主文件中。 我试过下面的代码

final_df.select(cols).toPandas().to_csv(outfile,mode='a',header=False,index=False)

也使用 spark.sql.dataframe.writer

final_df.select(cols).coalesce(1).write.csv(outfile,mode='append',header=False)

在这两种情况下,都没有错误或操作不受支持错误,但文件也没有附加到主数据文件中。我已经提到了一些帖子,但他们都提到了使用 python 文件打开函数。尝试了如下类似的方法

p_df = final_df.toPandas()
with open(outfile,'a') as fd:
  p_df.to_csv(fd)

但是这给了我一个操作错误作为不受支持的操作

OSError                                   Traceback (most recent call last)
OSError: [Errno 95] Operation not supported

During handling of the above exception,another exception occurred:

OSError                                   Traceback (most recent call last)
<command-3424188746178105> in <module>
      1 p_df = final_df.toPandas()
      2 with open(outfile,'a') as fd:
----> 3   p_df.to_csv(fd)

OSError: [Errno 95] Operation not supported

有没有办法将新数据附加到 Azure databricks notebook 中的主 csv 文件

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。