如何解决当我第一次取消暂停任务时,如何停止气流运行?
dag = DAG(
'My Dag',default_args=default_args,description='Cron Job : My Dag',schedule_interval='45 07 * * *',# start_date=days_ago(0),start_date = datetime(2021,4,6,10,45),tags=['My Dag Tag'],concurrency = 1,is_paused_upon_creation=True,catchup=False # dont run prevIoUs and backfill; run only latest
)
从 AIRFLOW 阅读文档,我想我已将 dag 设置为每天 7:45 运行。但是,如果我暂停 dag 并在几天后取消暂停,它仍然会在我取消暂停后立即运行(当然是那天),因为 catch=False 可以避免回填。 这不是预期的行为吗? 我的意思是我把它安排在 7:45。当我在 10:00 取消暂停时,它在下一个 7:45 之前根本不应该运行。
我在这里遗漏了什么?
解决方法
我假设您熟悉 Airflow 的调度机制,如果不是这种情况,请在阅读其余答案之前阅读 Problem with start date and scheduled date in Apache airflow。
至于你的情况:
部署 dag 时,您按预期运行了一次/多次。有时您在 2021-04-07
暂停了 dag,今天 (2021-04-19
) 您取消了暂停。然后 Airflow 使用 execution_date='2021-04-18'
执行 dag run。
这是意料之中的。
这是基于Airflow的调度机制。
您上次运行是在 2021-04-07
,间隔是 45 07 * * *
(每天 07:45)。由于您暂停了 DAG,因此从未创建 2021-04-08,2021-04-09,...,2021-04-17
的运行。当您取消暂停时,DAG Airflow 没有创建这些运行,因为 catchup=False
但是今天运行 (2021-04-19
) 不是它计划的追赶的一部分,因为间隔 of execution_date=2021-04-18
已达到其结束循环由此开始运行。
您遇到的行为与部署这个全新的 DAG 没有什么不同:
from airflow.operators.dummy_operator import DummyOperator
default_args = {
'owner': 'airflow','start_date': datetime(2020,1,1),}
with DAG(dag_id='stackoverflow_question',default_args=default_args,schedule_interval='45 07 * * *',catchup=False
) as dag:
DummyOperator(task_id='some_task')
一旦您部署它,就会创建一个单独的运行:
DAG start_date
是 2020-01-01
和 catchup=False
我今天部署了 DAG (19/Apr/2021
),所以它创建了一个 execution_date='2021-04-18' 的运行今天2021-04-19
开始运行。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。