如何解决当属性'catchup = false'时了解气流执行日期
我正在尝试查看Airflow如何为任何DAG设置执行日期。我已经在DAG中将属性catchup = false设置为。这是我的
dag = DAG(
'child',max_active_runs=1,description='A sample pipeline run',start_date=days_ago(0),catchup=False,schedule_interval=timedelta(minutes=5)
)
现在,由于Catchup = false,它应该在current_time之前跳过运行。它的作用相同,但是奇怪的是它没有正确设置execution_date。
在这里,运行执行时间:
我们可以看到运行安排为5分钟。但是,为什么要将秒和毫秒添加到时间? 稍后会影响我的传感器。 请注意,当catchup = True时,该行为运行良好。
解决方法
关于execution_date
,您应该看看scheduler documentation。这是时段的开始,但是在时段结束时(start_date)触发获取。
调度程序直到其涵盖的时间段结束才触发您的任务,例如,一天结束后运行的schedule_interval设置为@daily的作业。该技术可确保执行dag之前,该时间段所需的所有数据都是完全可用的。在用户界面中,Airflow似乎每天延迟运行您的任务
注意 如果您以一天的schedule_interval运行DAG,则执行期为2019-11-21的运行将在2019-11-21T23:59之后立即触发。 让我们重复一遍,计划程序会在开始日期后的周期结束后的一个schedule_interval内运行您的工作。
另外,文章Scheduling Tasks in Airflow可能值得一读。
您还应避免将start_date
设置为相对值-每次解析DAG文件时都会重新解释该值,这可能导致意外行为。
Airflow FAQ中有很长的描述:
,我们建议不要将动态值用作start_date,尤其是datetime.now(),因为它可能会造成很大的混乱。该时间段结束后便会触发任务,理论上,当now()前进时,@ hourly DAG永远不会到现在的一个小时之后。
我做了一些排列。似乎当我指定cron而不是timedelta函数时,execution_time正确到来。 所以,我的DAG现在是
dag = DAG(
'child',max_active_runs=1,description='A sample pipeline run',start_date=days_ago(0),catchup=False,schedule_interval='*/5 * * * *'
)
希望它将对某人有所帮助。我也为此提出了一个错误: 可以在以下位置进行跟踪:https://github.com/apache/airflow/issues/11758
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。