微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

从包含 Pyspark 数据框中 100 个文件的目录中加载前 10 个 XML 文件

如何解决从包含 Pyspark 数据框中 100 个文件的目录中加载前 10 个 XML 文件

我想在每次迭代中从包含 100 个文件的目录中加载前 10 个 XML 文件,并将已读取的那个 XML 文件删除到另一个目录。

到目前为止我在 pyspark 中的尝试。

li = ["/mnt/dev/tmp/xml/100_file/M800143.xml","/mnt/dev/tmp/xml/100_file/M8001422.xml"]
df1 = spark.read.format("com.databricks.spark.xml").option("rowTag","Quality").load(li) 
df1.show()

但我收到一个错误:IllegalArgumentException:必须为 XML 数据指定“路径”。

将XML文件的完整路径存储在列表中后,有什么方法可以读取文件吗? 或者请提出另一种方法

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。