aws-glue-data-catalog - 编程之家

aws-glue-data-catalogaws-glue-data-catalog专题提供aws-glue-data-catalog的最新资讯内容，帮你更好的了解aws-glue-data-catalog。

我正在使用 AWSlake 格式来管理使用 Athena 所需的权限。对于其中一个用户，我撤销了他的所有权限

我想使用 Athena 对另一个 AWS 账户中的 S3 存储桶中的数据运行查询。我正在使用 Javascript SDK。通读 <a href=

我创建了一个指向 S3 存储桶的外部表，该存储桶具有 csv 格式的 gzip 文件。我能够按预期通过红移光谱

我正在尝试使用 AWS 胶水将 JSON 对象从 JSON 文件中分离出来。我不确定它是否适合这项工作。我想从 JSON

我正在尝试使用 AWS Glue 从 S3 读取 CDC 数据。我没有使用 Crawler，因为我不确定它是否支持对 CDC 数据处理

为 AWS Glue 创建到 redshift 集群的连接，并在测试时显示以下结果 <a href="https://i.stack.imgur.com/x2uM0.png"

我希望每 4 小时定期运行一次 etl 作业，它将联合（组合）来自 s3 存储桶（镶木地板格式）的数据和来

我正在通过 Athena 查询编辑器对 Glue 数据目录中的表运行查询，并想了解为什么从该数据中执行简单的 se

我们正在将 JSON 文件发送到 S3，稍后由 Glue Crawler 解析，然后在 Athena 中使用。问题是某些文件带

我正在使用 <a href="https://en.wikipedia.org/wiki/Extract,_transform,_load" rel="nofollow noreferrer">ETL</a> 开发 <a href="https:

我有一个在 S3 中定义镶木地板文件架构的爬虫工作正常，但是当我再次运行它时遇到了 CrawlerRunningExcepti

我们正在尝试将 AWS Databricks 运行时配置为使用 AWS Glue 数据目录作为其元存储。在这种环境下，Azure ADLS

我通过粘合作业动态创建了一个表，并且它成功地工作正常。但是根据新要求，我需要添加一个新列，

我有一个具有以下结构的镶木地板文件 <div class="s-table-container"> <table class="s-table"> <头> <tr> <th>column_nam

<strong>TL;DR</strong> <ul> <li>我正在尝试使用 Glue [Studio] 作业将许多 S3 数据文件合并为较少数量的数据</li

我注意到 ADD PARTITIONS 更有效，因为我在 s3 中处理 JSON 数据。我设置的爬虫需要很长时间才能完成。当我

我的数据源 (RDS) 中有数十个表，我正在通过 AWS Glue 将所有这些数据提取到 Redshift 中。我目前正在 Redshif

我将这样的数据存储在 s3 上 <pre><code>s3/bucket/data/event/companyid=abcd/day=2019-07-01/ s3/bucket/data/event/companyid=p

我们有每隔几分钟按计划运行的查询，这些查询在得出一些结果之前加入几个不同的粘合表（通过 Athena

我在 Athena 中创建了一个视图，并在我的 Glue 数据目录中看到了它。我想通过 Redshift Spectrum/Glue Catalog Shar

分类导航