微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

创建 AWS 粘合作业是否需要爬虫?

如何解决创建 AWS 粘合作业是否需要爬虫?

我正在通过以下页面学习使用 Pyspark 的 glue:https://aws-dojo.com/ws8/labs/configure-crawler/

我的问题是:创建粘合作业需要爬虫和在 Lake Formation 中创建数据库吗?

我的 aws 角色存在一些问题,而且我无权在 LakeFormation 中创建资源,所以我在考虑是否可以跳过它们而只创建粘合作业并测试我的脚本?

例如,我只想测试一个输入的 .txt 文件的 pyspark 脚本,我将它存储在 S3 中,我还需要爬虫吗?我可以使用 boto3 创建粘合作业来测试脚本并进行一些预处理并将数据写回 s3 吗?

解决方法

没有。您不需要创建爬虫来运行 Glue Job。

Crawler 可以读取多个数据源并使 Glue Catalog 保持最新。 例如,当您在 S3 中对数据进行分区时,随着新分区(文件夹)的创建,我们可以安排一个爬虫作业来读取这些新的 S3 分区并更新 Glue 目录/表中的元数据。

一旦使用元数据更新了 Glue Catalog,我们就可以使用这些 Glue ETL 或 Athena 或其他流程轻松读取实际数据(在这些粘合目录/表后面)。

在您的情况下,您直接想读取 S3 文件并将它们写回到 Glue 作业中的 S3,因此,您不需要爬虫或 Glue 目录。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。