如何解决设置 execution_timeout 后的 AirflowTaskTimeout
我的 Airflow DAG 一直无法完成我唯一的任务。 我将 execution_timeout 声明为 300 秒,但它在大约 37 秒后一直崩溃。 该任务包括在没有 Chromedriver 的情况下抓取网站。 我使用的是 Linux,Raspberry PI。
代码如下:
from datetime import timedelta
import importlib
import sys
from airflow.operators.bash_operator import BashOperator
from airflow.operators.python_operator import PythonOperator
from airflow.utils.dates import days_ago
from airflow import DAG
from lib.jobs import jobs,linkedin_jobs,glassdoor_jobs
from lib import jobs_and_companies
default_args = {
'owner': 'airflow','depends_on_past': False,'email': ['firstname.lastname@live.fr'],'email_on_failure': True,'retries': 0,'execution_timeout': timedelta(hours=24)
}
dag = DAG(
dag_id='jobs',default_args=default_args,description='Collecting jobs from boards.',concurrency=10,schedule_interval=timedelta(hours=24),start_date=days_ago(2),dagrun_timeout=timedelta(seconds=300),)
linkedin_jobs_task = PythonOperator(
task_id='linkedin_jobs',python_callable=linkedin_jobs.scrap_jobs(),dag=dag,execution_timeout=timedelta(seconds=300),)
你能帮我吗?
谢谢
解决方法
发生崩溃时您看到了什么错误?另外,我注意到您的 Python 可调用文件名为 linkedin_jobs.scrap_jobs()
。拼写正确还是应该是linkedin_jobs.scrape_jobs()
?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。