马尔可夫决策过程中的建模动作使用限制

时间：2022-05-17分类：编程问答

我有一个包含一定数量的状态和动作的马尔可夫决策过程。我想在我的模型中加入一个动作，在任何状态下只能使用一次，并且一旦使用就不能再次使用。我如何在我的状态图中为这个动作建模？我想过有一个单独的状态并使用 -inf 来获得奖励，但这些似乎都没有奏效。谢谢！

小编推荐