微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何在稳定的基线中获得 action_propability() 3

如何解决如何在稳定的基线中获得 action_propability() 3

我刚刚开始使用稳定基线 3 自学强化学习。我的长期目标是训练智能体玩特定的回合制棋盘游戏。不过,目前我对新东西感到不知所措。

我已经实现了一个健身房环境,我可以用它来手动玩我的游戏或让它选择随机动作。

目前,我一直在尝试让模型根据观察结果向我提供动作。我的环境的操作空间是一个 discreteSpace(256)。我创建了环境为 model = PPO('MlpPolicy',env,verbose=1) 的模型。当我稍后调用 model.predict(observation) 时,我确实得到了一个看起来像一个动作的数字。当重复运行时,我会得到不同的数字,我认为这是在未经训练的模型上预期的。

不幸的是,在我的游戏中,大多数行为在大多数州都是非法的,我想过滤它们并选择最好的合法行为。或者简单地转储所有操作的输出结果,以了解正在发生的事情。

在浏览其他人的代码时,我看到了对 model.action_probability(observation) 的引用。不幸的是,据我所知,方法不是稳定基线 3 的一部分。从稳定基线 2 迁移到 v3 的指南只提到它没有实施 [1]。

你能告诉我如何继续吗?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。