微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Python 脚本编排器和同步脚本执行

如何解决Python 脚本编排器和同步脚本执行

背景
我正在从事一个数据科学项目,在该项目中我正在对数据集(我们称之为 original 数据集)运行数据分析任务并创建一个处理过的数据集(我们称之为一个 result )。用户可以通过使用 Dash 应用程序创建不同的图来查询最后一个。由于 ML 模型,系统还对该数据集的属性进行了一些预测。一切都将在我公司的外部虚拟机上运行。

我当前的“代码”是什么
目前我有这些 python 脚本来创建 result 数据集(仪表板除外):

  • concat.py(简单地连接一些文件
  • merger.py(合并项目目录中的不同文件
  • processer1.py(处理分析所需的第一个文件
  • processer2.py(处理分析所需的第二个文件
  • Dashboard.py(Dash 应用程序)
  • ML.py(运行一个经典的机器学习任务,创建一个报告和一个更新的结果数据集以及一些预测)

我应该得到什么
我有兴趣创建这种将运行 VM 的解决方案:

  1. Dashboard.py 基于“结果”数据集的存在,24/7 全天候运行,没有它就毫无用处。
  2. 每次项目目录有变化(每个月都有新文件增加),系统触发执行concat.pymerger.pyprocesser1.pyprocesser2.py .也许 python 脚本和 watchdog 包可以帮助创建这种触发机制?我不确定。
  3. 上述执行完成后,将根据“结果”数据集执行 ML.py 文件并将其上传到仪表板。
  4. Dashboard.py 使用新的 csv 文件重新启动。

我想得到一些帮助,以了解获得我想要的东西所需的技术。像一个例子或者一个来源,所以我可以完全理解和应用什么是正确的。我知道可能我必须使用 python 脚本来编排整个系统,可能是观察目录的相同脚本,也可能不是。

最重要的是仪表板始终运行。这就是同时运行事物的需求。就在“结果”csv数据集完成上传时需要重启,我认为对于用户来说最好是保持服务的连续性。
用户将在观察目录中为仪表板提供新文件必须通过使用“触发器”来执行代码来创建自动,因为他们不是熟练的用户,并且不允许他们使用 VM bash(我想)。也许我可以考虑创建一个重复的执行,就像每个月一样。

如果需要,公司不会让我授予另一个虚拟机或类似设备,所以我应该只使用一个虚拟机。

前提
这是我第一次必须“投入生产”,而且我完全没有经验。谁能帮我找到最好的方法?提前致谢。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?