微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

雅典娜保留秩序

如何解决雅典娜保留秩序

有没有办法保留来自 Athena 的查询的顺序?假设 s3 存储桶或数据湖中的数据已分区且位于 parquet 文件中。每次查询东西,每次的顺序都不一样。我不确定 Athena 是如何工作的,但让多个工作人员执行性能查询并将结果组合在一起是有意义的,这将解释为什么每次顺序不同。但是,如果所有数据都来自单个 Parquet 文件,是否可以保留结果的顺序?

解决方法

如果原始文件中的数据已经按时间排序,添加 order by time_column 不会增加查询的复杂性。从概念上讲,每个工作人员将对一小部分数据进行排序,然后对工作人员的结果进行合并排序。对于已经排序的数据,这些操作成本很低。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。