具有实际环境而不是python类环境的Tensorflow代理

根据Wikipedia关于强化学习

两个要素使强化学习变得强大：使用样本优化性能和使用函数逼近来处理大型环境。归功于这两个关键组成部分，强化学习可以在以下情况下的大型环境中使用：

已知环境模型，但是没有解析解决方案。

仅给出环境的仿真模型（基于仿真的优化主题）。

收集有关环境的信息的唯一方法是与之互动。

就我而言，环境属于第三种选择，唯一的方法是与之互动以获取经验。为此，我有一个Flask Restful API，环境调用这些API点以符合RL框架的主要功能Reset和Step。

由于它不是要传递给TF Environment Wrapper的python类，因此在我的解决方案中还可以使用TF Agents的其他方法。也许是一个环境类，它将与消息传递总线进行通信以查看API是否被击中？

要进一步说明，如果我根据TF Environment文档创建了python类，并且具有用于检查API是否已被命中的Step and Reset的内部实现，那这是一个明智的解决方案吗？

更新1：我仍然无法弄清这一切，因为它特别复杂，无法从外部环境重置环境，但是目前我正在研究broker类，作为python类和flask之间的一种简单消息传递技术。 API