如何解决在气流中的下游任务中使用任务结果
我有一个气流 DAG,我需要在其中列出 S3 对象键并在下游任务中使用它们
我在任务开始时在列表的前缀中添加了 S3 键。此列表是在全局级别创建的。任务完成后,当我打印列表时,我可以打印密钥。但是在任务完成后,当我尝试访问同一个列表时,我无法访问同一个列表。相反,我得到了最初创建的空列表。我观察到在任务中声明为全局的变量也是如此。我创建了名称为 start_timestamp
的变量,并在第一个任务中将其设为全局变量并分配了一些值。当我在下游任务中访问这个变量时,我看到的是旧值,而不是我在之前任务中更新的值。
这是什么原因?有没有一种方法可以访问这些变量而不将它们发送到 XCom?
解决方法
Airflow execution 并不是要共享变量,即使它们是全局的。 Airflow 可以在不同的 worker 中运行不同的任务,因此不会默认在这些 worker 之间共享内存。
话虽如此,如果您不想使用 XComs
(小数据的最佳做法),您唯一的选择就是使用 Variables
。从 Airflow's best practice documentation 中您可以看到,如果您可以对其进行模板化,则建议使用它(这取决于运营商)。
如果您想使用该选项,则必须设置变量并在需要使用时获取它。我想说得很清楚:不建议在 DAG 的主定义中设置和获取变量,因为它会创建到元数据数据库的连接。如果可能,我会选择XComs
。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。