如何解决基于多个依赖项在气流中安排重新运行任务
我正在尝试设置一个具有多项任务的 DAG,例如 A,B,C,D
。它们都写入同一个impala 表。问题是它们都有不同的依赖关系,其中一些依赖于两个外部任务。我该怎么办
-
有两个传感器用于同一任务?例如,
A
依赖于两个ExternalTaskSensor
来检测其他 2 个 DAG 的完成情况,以及一个HdfsSensor
,并且仅在它们都准备好后才运行? -
我想弄清楚是让整个 DAG 取决于某些东西还是为
A,D
设置单独的传感器。问题是A,D
可能不会同时准备好。让它们全部取决于一个条件并以A>>B>>C>>D
运行意味着只有在所有数据准备就绪时才会刷新目标表,这是不可取的。但是A
和B
可能有共同的父母。将它们作为像sensorA>>A>>write
sensorB+sensorA>>B>>write
这样的并行任务似乎会创建太多的工作流,如果A,D
同时准备就绪,在它们写入同一个表时可能会出现并发问题?有什么方法可以解决这个问题?非常感谢您的帮助。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。