微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

雅典娜对参数化 s3 文件夹的查询

如何解决雅典娜对参数化 s3 文件夹的查询

我有雅典娜的以下 s3 路径

<bucket>/prod/dept=sales/year=2020/month=may

我在 prod 文件夹之前创建了 athena 表,我如何查询特定部门和年份以将 athena 扫描限制为一个部门以获得更快的结果。

因为我们有 1000 个跨多年的部门。

请帮忙

解决方法

基本上,您必须使用 ALTER TABLE ADD PARTITION 语法手动添加每个分区,或者 - 这是我的首选解决方案 - 在存储桶上使用 Configure a Glue crawler 并让它为您创建分区。

然后每个分区属性将在表中获得它自己的特殊列,您可以在查询中使用它来减少正在扫描的数据。该文档有一个示例:Preparing Partitioned and Nonpartitioned Data for Querying.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。