您是否将数据存储在与 Airflow 后端相同的数据库中?

如何解决您是否将数据存储在与 Airflow 后端相同的数据库中?

我正在尝试查找有关如何创建数据库、将数据存储在新创建的数据库中以及从该数据库获取数据的信息,所有这些都来自 Airflow。我可以在网上找到的关于如何执行此操作的所有参考资料都只涉及 Airflow 的后端数据库

我对 Airflow 有点陌生,我的理解是后端数据库是 Airflow 用来存储和访问与其自身操作相关的元数据的东西,而不是任务层数据。如果我想访问 sqlite 数据库以在整个 DAG 中存储数据,我可以找到一个 python 库来为我做这件事,但我觉得这不是通过 Airflow 访问数据库的传统方式。 (1) 创建 sqlLite 数据库,(2) 将数据存储在数据库中,以及 (3) 在气流中从该数据库获取数据以供任务使用,而不是由任务使用的元数据的传统方法是什么?气流本身?

编辑:

我在评论中被要求提供有关我在 Airflow 上的工作流程的更多详细信息。此 DAG 的目标是通过数据处理管道从源移动数据,此过程的一部分涉及创建新的数据库和表(如果尚不存在),如下所示:

fetch data >> transform data >> put data elsewhere >> send alerts based on data

fetch dataput data elsewhere 步骤涉及将数据复制到本地数据库,我正在尝试找出在 Airflow 中执行此操作的“正确”方法

解决方法

确实,您不得使用 Airflow 元数据数据库来存储您的数据。

首先需要在Airflow中为你要使用的Sqlite添加一个连接。要创建数据库,您可以使用 SqliteOperator: https://airflow.apache.org/docs/apache-airflow/1.10.13/_modules/airflow/operators/sqlite_operator.html

然后,您必须下载数据,这里有几个选项:

无论哪种方式,您都必须编写如何下载数据的代码。您应该使用 sqlite_hook,方法是 get_pandas_df(或 get_records)

之后,无论是使用 taskflow 还是 pythonoperator,您都可以将数据上传到您想要的位置

总而言之,您总是希望搜索能够生成您想要的内容或编写 Python 脚本以与 PythonOperator、BashOperator 或 TaskFlow 一起运行的运算符。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?