微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

健身房定制环境和PPO:训练有素的代理人总是采取同样的行动,有什么建议?

如何解决健身房定制环境和PPO:训练有素的代理人总是采取同样的行动,有什么建议?

我已经建立了一个健身房定制env和与虚拟随机测试剂是:到目前为止好,会发生什么情况正确地按照我的游戏规则

简而言之,我目前的空间是:

action_space = Multidiscrete([6,60,1122])
observation_space = Box(low=0,high=1122,shape=(1182,),dtype=np.float32)

请注意,最初我想要以下观察空间:

observation_space = Dict({
    'list1' : Box(low=0,high=6,shape=(1,1122),dtype=np.uint32),'list2' : Box(low=0,60),dtype=np.int32)
    })

...但由于没有稳定的基线可以处理快译通空间,我只好来连接两个列表,并使用一箱同时服用最高尺度。

然后我试图从稳定的基线3.我训练它上百万步(约1000万)训练PPO代理并测试它的环境:训练有素的代理人始终以相同的(傻)动作并没有任何反应。我重复与A2C剂和同样的事情发生。

我是新来的机器学习,所以我现在有点失落,需要一些方向前进:

  1. 问题是否来自我的观察和/或动作空间?我需要正常化?
  2. 是培训方式太短的空间大小?
  3. 该问题是否由超参数来?

因为我是一个相当长的时间后卡住使得环境...感谢任何意见,欢迎!

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。