如何解决HadoopDataSource:跳过分区{},因为没有检测到新文件@s3:
所以,我有一个 S3 文件夹,其中有几个子文件夹作为分区(基于创建日期)。我有这些分区的 Glue 表,可以使用 Athena 查看数据。
运行胶水作业并尝试访问目录时出现以下错误:
XMLAdapter
给我带来问题的行如下:
HadoopDataSource: Skipping Partition {} as no new files detected @ s3:...
我希望随时访问这些 S3 子文件夹中的所有数据,因为这些数据会定期更新。
我认为问题在于 Glue 作业书签未检测到新文件,但这不是作为作业的一部分直接运行,而是作为作业使用的库的一部分运行。
删除“transformationContext”或将其值更改为空无效。
解决方法
所以你得到的 Hadoop 输出不是错误,而是一个简单的日志,表明分区是空的。
但是正在记录的分区 {}
似乎已关闭。你能检查一下吗?
此外,您能否在禁用书签的情况下运行作业,以确保这不是问题的原因?
我也发现了这个unresolved GitHub issue,也许你也可以在那里发表评论,让这个问题得到一些关注。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。