如何解决我怎样才能加速这个 Athena 查询?
我正在通过 Athena 查询编辑器对 Glue 数据目录中的表运行查询,并想了解为什么从该数据中执行简单的 select * 需要这么长时间。
我们的数据存储在按年/月/日/小时分区的 S3 存储桶中,每个分区有 80 个 snappy Parquet 文件,每个文件的大小在 1 - 10 MB 之间。当我运行以下查询时:
select stringA,stringB,timestampA,timestampB,bigintA,bigintB
from tableA
where year='2021' and month='2' and day = '2'
它扫描了 700MB,但需要 3 多分钟才能显示 Athena 结果。我觉得我们已经优化了这些数据的文件格式和分区,所以我不确定如果我们只是尝试选择这些数据并在像 QuickSight 这样的工具中显示它,我们还可以如何提高性能。>
解决方法
select * 性能受到需要扫描的文件数量的影响,这些文件数量都相对较小。重新分区和删除小时分区后,运行时间(减少 14%)和扫描的数据(减少 26%)都得到了改进,因为 snappy 压缩在更大的文件上获得了更多收益。
来源:https://aws.amazon.com/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。