创建 AWS 粘合作业是否需要爬虫？

我的问题是：创建粘合作业需要爬虫和在 Lake Formation 中创建数据库吗？

我的 aws 角色存在一些问题，而且我无权在 LakeFormation 中创建资源，所以我在考虑是否可以跳过它们而只创建粘合作业并测试我的脚本？

例如，我只想测试一个输入的 .txt 文件的 pyspark 脚本，我将它存储在 S3 中，我还需要爬虫吗？我可以使用 boto3 创建粘合作业来测试脚本并进行一些预处理并将数据写回 s3 吗？

没有。您不需要创建爬虫来运行 Glue Job。

Crawler 可以读取多个数据源并使 Glue Catalog 保持最新。例如，当您在 S3 中对数据进行分区时，随着新分区（文件夹）的创建，我们可以安排一个爬虫作业来读取这些新的 S3 分区并更新 Glue 目录/表中的元数据。

一旦使用元数据更新了 Glue Catalog，我们就可以使用这些 Glue ETL 或 Athena 或其他流程轻松读取实际数据（在这些粘合目录/表后面）。

在您的情况下，您直接想读取 S3 文件并将它们写回到 Glue 作业中的 S3，因此，您不需要爬虫或 Glue 目录。