如何解决Python 脚本编排器和同步脚本执行
背景
我正在从事一个数据科学项目,在该项目中我正在对数据集(我们称之为 original 数据集)运行数据分析任务并创建一个处理过的数据集(我们称之为一个 result )。用户可以通过使用 Dash 应用程序创建不同的图来查询最后一个。由于 ML 模型,系统还对该数据集的属性进行了一些预测。一切都将在我公司的外部虚拟机上运行。
我当前的“代码”是什么
目前我有这些 python 脚本来创建 result 数据集(仪表板除外):
-
concat.py
(简单地连接一些文件) -
merger.py
(合并项目目录中的不同文件) -
processer1.py
(处理分析所需的第一个文件) -
processer2.py
(处理分析所需的第二个文件) -
Dashboard.py
(Dash 应用程序) -
ML.py
(运行一个经典的机器学习任务,创建一个报告和一个更新的结果数据集以及一些预测)
-
Dashboard.py
基于“结果”数据集的存在,24/7 全天候运行,没有它就毫无用处。 - 每次项目目录有变化(每个月都有新文件增加),系统触发执行
concat.py
、merger.py
、processer1.py
和processer2.py
.也许 python 脚本和watchdog
包可以帮助创建这种触发机制?我不确定。 - 上述执行完成后,将根据“结果”数据集执行
ML.py
文件并将其上传到仪表板。 -
Dashboard.py
使用新的 csv 文件重新启动。
我想得到一些帮助,以了解获得我想要的东西所需的技术。像一个例子或者一个来源,所以我可以完全理解和应用什么是正确的。我知道可能我必须使用 python 脚本来编排整个系统,可能是观察目录的相同脚本,也可能不是。
最重要的是仪表板始终运行。这就是同时运行事物的需求。就在“结果”csv数据集完成上传时需要重启,我认为对于用户来说最好是保持服务的连续性。
用户将在观察目录中为仪表板提供新文件。 必须通过使用“触发器”来执行代码来创建自动化,因为他们不是熟练的用户,并且不允许他们使用 VM bash(我想)。也许我可以考虑创建一个重复的执行,就像每个月一样。
如果需要,公司不会让我授予另一个虚拟机或类似设备,所以我应该只使用一个虚拟机。
前提
这是我第一次必须“投入生产”,而且我完全没有经验。谁能帮我找到最好的方法?提前致谢。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。