微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在 OpenAI Gym 中定义 MDP 的最简单方法?

如何解决在 OpenAI Gym 中定义 MDP 的最简单方法?

我正在寻找基于示例的答案,无论是答案中直接的代码还是教程的链接,但不只是纯文本答案。

我很好奇——如何在 OpenAI Gym 中定义任意马尔可夫决策过程以实现强化学习解决方案?我在我的角色中经常遇到的问题是旅行推销员、车辆路线安排和库存优化。通常,我使用遗传算法和贝叶斯优化等优化技术来寻找接近最优的解决方案。但是,在这个问题中,我希望看到一种实用/可行的 RL 方法解决此类问题。我的理解是 OpenAI Gym 是为 RL 定义代理/环境的最简单工具。 (如果这不是真的,请使用您首选的替代方案以相同的详细程度回答这个问题。)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。