微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

具有实际环境而不是python类环境的Tensorflow代理

如何解决具有实际环境而不是python类环境的Tensorflow代理

根据Wikipedia关于强化学习

两个要素使强化学习变得强大:使用样本优化性能和使用函数逼近来处理大型环境。归功于这两个关键组成部分,强化学习可以在以下情况下的大型环境中使用:

  • 已知环境模型,但是没有解析解决方案。
  • 仅给出环境的仿真模型(基于仿真的优化主题)。
  • 收集有关环境的信息的唯一方法是与之互动。

就我而言,环境属于第三种选择,唯一的方法是与之互动以获取经验。为此,我有一个Flask Restful API,环境调用这些API点以符合RL框架的主要功能Reset和Step。

由于它不是要传递给TF Environment Wrapper的python类,因此在我的解决方案中还可以使用TF Agents的其他方法。也许是一个环境类,它将与消息传递总线进行通信以查看API是否被击中?

要进一步说明,如果我根据TF Environment文档创建了python类,并且具有用于检查API是否已被命中的Step and Reset的内部实现,那这是一个明智的解决方案吗?

更新1:我仍然无法弄清这一切,因为它特别复杂,无法从外部环境重置环境,但是目前我正在研究broker类,作为python类和flask之间的一种简单消息传递技术。 API

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。