如何解决使用 PySpark 从 Azure 帐户存储中列出按年/月/日分区的 json 文件
我拥有包含 json
个文件的 azure 帐户存储空间,按年/月/日/小时分区。我需要列出两个日期之间的所有 jsons,例如。 20200505 到 20201220,所以我有 url/dir
的列表。我不需要加载任何内容,只需列出位于这两个日期之间的所有文件。
我需要使用带有 pyspark 的天蓝色数据块。是否可以只使用 sth 之类的:
.load(from "<Path>/y=2020/month=05/day=05/**/*.json" to "<Path>/y=2020/month=12/day=20/**/*.json")
解决方法
Spark 不提供选择日期分区间隔的通用方法,但您可以尝试手动指定范围,如下所示:
.load(
"<Path>/year=2020/month=05/day={0[5-9],[1-3][0-9]}/**/*.json","<Path>/year=2020/month={0[6-9],1[0-1]}/day=[0-3][0-9]/**/*.json","<Path>/year=2020/month=12/day={[0-1][0-9],20}/**/*.json",)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。