如何解决AWS Glue 数据目录和 Spark 更新分区等
我了解到 Glue 数据目录需要一个爬网程序来运行以查看任何新分区,或使用 AWS Glue ETL 的新 enableUpdateCatalog
功能。
然而,如果
- 在 EMR 上运行原生 Spark 作业并选择 Glue 数据目录作为 Spark 持久性 MetaStore,然后,
- 我假设如果您已将分区添加到 Spark 表,
- AWS Glue 数据目录将自动更新。
- 我假设如果您已将分区添加到 Spark 表,
这就是我想要确认的。如果没有的话看起来很奇怪,但是......
来自手册:
AWS Glue 提供了多种将元数据填充到 AWS 中的方法 AWS Glue 数据目录。 AWS Glue 爬网程序扫描您的各种数据存储 拥有自动推断模式和分区结构和 使用相应的表填充 AWS AWS Glue 数据目录 定义和统计。您还可以安排爬虫运行 定期更新,以便您的元数据始终保持最新和同步 与基础数据。或者,您可以添加和更新表 使用 AWS Glue 控制台或调用 API 手动获取详细信息。 您还可以通过 Amazon Athena 控制台运行 Hive DDL 语句或 Amazon EMR 集群上的 Hive 客户端。最后,如果你已经有了 持久的 Apache Hive Metastore,您可以执行批量导入 使用我们的导入将该元数据导入 AWS AWS Glue 数据目录 脚本。
我假设 EMR 上的 Spark 将使用该 API。
解决方法
Spark on EMR 更新了 Glue 数据目录。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。