取决于初始状态的最佳策略 MDPToolbox Python

如何解决取决于初始状态的最佳策略 MDPToolbox Python

我正在尝试使用 MDP ToolBox 为我通过 Python 的 MDPToolBox 库生成的随机 MDP 实现“平均无限”奖励标准的算法。虽然该库为所有初始状态的此类目标提供了最佳策略，但我希望找到一种现有的算法实现，该算法为从给定初始状态开始的 MDP 提供最佳策略。我正在阅读他们首次介绍包的论文，并在其中解决了初始状态为“所有状态可用”时的优化问题。我想知道是否有任何方法可以自定义此算法以解决单个初始状态（即使其更简单）。

我所做的一个假设是它解决了转换矩阵第 0 个索引的初始状态的问题，因此我可以重新分配转换矩阵以解决不同初始状态的问题，但我不确定这个解决方案是否真的有效。

有谁知道 MDPToolBox 或任何其他 Pythonic 库是否能让我解决这个问题？