如何在稳定的基线中获得 action_propability() 3

如何解决如何在稳定的基线中获得 action_propability() 3

我刚刚开始使用稳定基线 3 自学强化学习。我的长期目标是训练智能体玩特定的回合制棋盘游戏。不过，目前我对新东西感到不知所措。

我已经实现了一个健身房环境，我可以用它来手动玩我的游戏或让它选择随机动作。

目前，我一直在尝试让模型根据观察结果向我提供动作。我的环境的操作空间是一个 discreteSpace(256)。我创建了环境为 model = PPO('MlpPolicy',env,verbose=1) 的模型。当我稍后调用 model.predict(observation) 时，我确实得到了一个看起来像一个动作的数字。当重复运行时，我会得到不同的数字，我认为这是在未经训练的模型上预期的。

不幸的是，在我的游戏中，大多数行为在大多数州都是非法的，我想过滤它们并选择最好的合法行为。或者简单地转储所有操作的输出结果，以了解正在发生的事情。

在浏览其他人的代码时，我看到了对 model.action_probability(observation) 的引用。不幸的是，据我所知，方法不是稳定基线 3 的一部分。从稳定基线 2 迁移到 v3 的指南只提到它没有实施 [1]。

你能告诉我如何继续吗？