如何解决有没有办法知道在 S3 表中写入的最后一个分区是什么,用于 AWS Glue 作业中的下推谓词?
我正在尝试从使用下推谓词读取动态框架的胶水作业中读取写入 S3 表中的最后一个分区。
我想要读取的表每天都会加载,因此会为每天的数据创建一个新分区。
我有另一个 Glue 作业将从该表中读取,但我只想读取写入该最后一个分区的最后一个数据。我不想读取整个表然后获取最新数据(大数据量、低效率、成本...),因为我可以使用下推谓词。问题是,最后一个分区的值每天都在变化。
我尝试使用 boto3 列出 S3 中的对象,并使用 get_partitions 函数检索值,我知道我可以在 Athena 中查询:
SELECT partition_key,max(partition_value)
FROM information_schema.__internal_partitions__
WHERE table_schema = <database name>
AND table_name = <table name>
group by 1
但是有没有更简单的方法可以在 Glue Job 中实现这一点?
谢谢
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。