微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

我们如何在 AWS Athena 中生成统计信息,为什么 athena 不支持 Analyze Table Compute Statistics 命令?

如何解决我们如何在 AWS Athena 中生成统计信息,为什么 athena 不支持 Analyze Table Compute Statistics 命令?

我需要计算 gluE 中表格的统计信息。以下是我为计算表的统计信息而创建的当前设置。

  1. 创建一个指向 S3 位置的外部表
  2. 读取数据帧中的 S3 位置数据
  3. 应用多个聚合函数生成统计信息,例如 - max,min,countdistinct,Average Length
  4. 使用update_column_statistics_for_table boto3 API 将此统计信息推送到 gluE 表

但是当前的设置需要很长时间才能生成 1 个表的统计信息。

我想直接运行一个分析表计算统计,就像我们在 Databricks 中所做的那样。

如果您有更好的选择/解决方案,请提供。

非常感谢!

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。