如何解决手动设置 AWS Glue ETL 书签
我的项目正在过渡到新的 AWS 账户,我们正在尝试找到一种方法来保留我们的 AWS Glue ETL 书签。我们有大量已处理的数据正在复制到新帐户,并希望避免重新处理。
据我所知,Glue 书签只是后端的时间戳,理想情况下,我们能够获取旧书签,然后在新的 AWS 账户中手动设置匹配作业的书签。
看起来我可以使用以下方法通过 AWS CLI 获取我现有的书签:
get-job-bookmark --job-name <value>
(Source)
但是,我一直无法找到任何可能在新帐户中设置书签的方法。
就解决方法而言,我最好的选择似乎是:
- 为 Glue 爬虫上的所有 S3 数据源添加排除模式,尽管这将不再允许我们通过 Glue 目录(我们目前用于跟踪记录和文件)跟踪任何现有的未处理数据数)。这看起来是迄今为止最好的选择...
- 尝试在新帐户中抓取旧(复制)数据之前运行 Glue ETL 作业,将书签设置为超过我们复制的 S3 对象的创建时间。然后一旦我们抓取了复制的数据,ETL 作业就会认为它们比当前书签时间更旧,并且不会在下次运行时处理它们。但是,这个 hack 似乎不起作用,因为我在测试时最终处理了所有数据。
在这里真的不知所措,AWS Glue 论坛是一个鬼城,过去没有帮助。
解决方法
我无法使用上述问题中的方法手动设置书签或获取书签以手动前进和跳过数据。
但是,我能够使用以下步骤让 Glue ETL 作业跳过数据并处理其书签:
-
确保禁用任何 Glue ETL 计划
-
添加你想跳到 S3 的文件
-
抓取 S3 数据
-
注释掉您的 Glue ETL 作业的 Spark 代码的处理步骤。我只是在初始动态帧创建之后注释掉了所有 dynamic_frame 步骤,直到
job.commit()
。sc = SparkContext() glueContext = GlueContext(sc) spark = glueContext.spark_session job = Job(glueContext) job.init(args['JOB_NAME'],args) # Create dynamic frame from raw glue table datasource0 = glueContext.create_dynamic_frame.from_catalog(database=GLUE_DATABASE_NAME,table_name=JOB_TABLE,transformation_ctx="datasource0") # ~~ COMMENT OUT ADDITIONAL STEPS ~~ # job.commit()
-
像往常一样在启用书签的情况下运行胶水 etl 作业
-
将 Glue ETL Spark 代码恢复到正常状态
现在,Glue ETL 作业的书签已处理完毕,并且将跳过在第 5 步中运行的该作业上处理的任何数据。下次将文件添加到 S3 并对其进行爬网时,Glue ETL 作业将对其进行正常处理。
如果您知道将获得一些您不想处理的数据,或者您正在过渡到一个新的 AWS 账户并像我一样复制所有旧数据,这会很有用。如果有一种方法可以在 Glue 中手动设置书签时间,这样就没有必要了,那就太好了。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。