如何解决确保在创建 Glue 分区时准备好查询数据的好方法?
我们有每隔几分钟按计划运行的查询,这些查询在得出一些结果之前加入几个不同的粘合表(通过 Athena)。对于有问题的表,我们设置了 Glue Crawler,并根据 snapshot_date 和其他几个列进行分区。
在查询中,我们获取最新的 snapshot_date 并仅使用来自该 snapshot_date 的数据进行查询。 S3 中的数据每天更新几次并放入正确的文件夹中,但看起来有时,如果我们尝试在 S3 中的数据更新时正确查询数据,由于查询试图访问新的快照日期分区而 Glue 仍在获取数据设置(?)
在我们开始查询之前,是否有一种内置的方法来确保我们的胶水分区准备就绪?到目前为止,我们考虑在我们期望写入快照日期分区数据和完成胶水更新时在我们的查询中构建人工时间“缓冲区”,但我知道这真的很脆弱,取决于确切的时间。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。