将 S3 文件下载到气流 tmp\test\ 以处理 python 脚本第一次作业运行文件第二次因为找不到模板而异常终止

如何解决将 S3 文件下载到气流 tmp\test\ 以处理 python 脚本第一次作业运行文件第二次因为找不到模板而异常终止

我需要将文件从 s3 下载到 aiflow tmp\test\ 文件夹以处理 python 脚本并将文件加载回 s3。

Step1:创建文件
步骤 2:使用 bash 脚本下载文件 1
Step3:使用bash脚本下载文件2
Step4:使用bash脚本下载文件3
Step5:使用bash脚本下载文件4
Step6:使用bash脚本下载文件5
Step7:执行python脚本
Step8:将python输出加载到s3 在 DAG 中并行运行第 2 步到第 6 步(下载)。

我创建了 DAG,它第一次运行良好。当我第二次下载很少的文件和很少的下载步骤(步骤 3 和步骤 5)由于模板 /tmp/test/ 未找到而异常终止时。

DEFAULT_ARGS = {
 'depends_on_past': False,'start_date': '2021-03-22'
}

with DAG(
  dag_id='generate_dag',schedule_interval='0 0/1 * * *',default_args=DEFAULT_ARGS,template_searchpath=['/tmp/test/']
) as dag:
remove_temp_test = BashOperator(   
    task_id="remove_temp_test_dir",bash_command=f"rm -rf /tmp/test"
)
get_usafacts_cases = BashOperator(
    task_id="get_usafact "url" --create-dirs -o 
/tmp/test/{cases_file}"
)


get_etl_script = S3DownloadOperator(
    task_id='get_etl_script_s3',s3_bucket='{{ var.json.etlconfig.SCRIPT_BUCKET }}',s3_prefix='/scripts/test.py',outpath='/tmp/test/',outfile='test.py'
)

get_county_pop_data = S3DownloadOperator(
    task_id="get_county_pop_s3",s3_bucket='{{ var.json.etlconfig.LAKE_BUCKET }}',s3_prefix='/test1.csv',outfile='test1.csv'
)

get_congdon_data = S3DownloadOperator(
    task_id="get_congdon_s3",s3_prefix='/test2.csv',outfile='test2.csv'
)

get_hud_crosswalk = S3DownloadOperator(
    task_id="get_hud_crosswalk_s3",s3_prefix='/test3.csv',outfile='test3.csv'
)

get_cbo_deFinition = S3DownloadOperator(
    task_id="get_cbo_file_s3",s3_prefix='/test4.csv',outfile='test4.csv'
)

run_etl_script = BashOperator(
    task_id="run_etl_script_local",bash_command=f"python3 /tmp/test/{etl_script}"
)

remove_temp_test >> get_usafacts_cases >> get_usafacts_deaths >> get_etl_script >> get_county_pop_data  >> get_congdon_data  >> get_hud_crosswalk >> get_cbo_deFinition >> run_etl_script

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?