微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

取决于初始状态的最佳策略 MDPToolbox Python

如何解决取决于初始状态的最佳策略 MDPToolbox Python

我正在尝试使用 MDP ToolBox 为我通过 Python 的 MDPToolBox生成随机 MDP 实现“平均无限”奖励标准的算法。虽然该库为所有初始状态的此类目标提供了最佳策略,但我希望找到一种现有的算法实现,该算法为从给定初始状态开始的 MDP 提供最佳策略。我正在阅读他们首次介绍包的论文,并在其中解决了初始状态为“所有状态可用”时的优化问题。我想知道是否有任何方法可以自定义此算法以解决单个初始状态(即使其更简单)。

我所做的一个假设是它解决了转换矩阵第 0 个索引的初始状态的问题,因此我可以重新分配转换矩阵以解决不同初始状态的问题,但我不确定这个解决方案是否真的有效。

有谁知道 MDPToolBox 或任何其他 Pythonic 库是否能让我解决这个问题?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。