雅典娜保留秩序 - 编程之家

如何解决雅典娜保留秩序

有没有办法保留来自 Athena 的查询的顺序？假设 s3 存储桶或数据湖中的数据已分区且位于 parquet 文件中。每次查询东西，每次的顺序都不一样。我不确定 Athena 是如何工作的，但让多个工作人员执行性能查询并将结果组合在一起是有意义的，这将解释为什么每次顺序不同。但是，如果所有数据都来自单个 Parquet 文件，是否可以保留结果的顺序？

解决方法

如果原始文件中的数据已经按时间排序，添加 order by time_column 不会增加查询的复杂性。从概念上讲，每个工作人员将对一小部分数据进行排序，然后对工作人员的结果进行合并排序。对于已经排序的数据，这些操作成本很低。