如何解决健身房定制环境和PPO:训练有素的代理人总是采取同样的行动,有什么建议?
我已经建立了一个健身房定制env和与虚拟随机测试剂是:到目前为止好,会发生什么情况正确地按照我的游戏规则
简而言之,我目前的空间是:
action_space = Multidiscrete([6,60,1122])
observation_space = Box(low=0,high=1122,shape=(1182,),dtype=np.float32)
请注意,最初我想要以下观察空间:
observation_space = Dict({
'list1' : Box(low=0,high=6,shape=(1,1122),dtype=np.uint32),'list2' : Box(low=0,60),dtype=np.int32)
})
...但由于没有稳定的基线可以处理快译通空间,我只好来连接两个列表,并使用一箱同时服用最高尺度。
然后我试图从稳定的基线3.我训练它上百万步(约1000万)训练PPO代理并测试它的环境:训练有素的代理人始终以相同的(傻)动作并没有任何反应。我重复与A2C剂和同样的事情发生。
我是新来的机器学习,所以我现在有点失落,需要一些方向前进:
- 问题是否来自我的观察和/或动作空间?我需要正常化?
- 是培训方式太短的空间大小?
- 该问题是否由超参数来?
因为我是一个相当长的时间后卡住使得环境...感谢任何意见,欢迎!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。