健身房定制环境和PPO：训练有素的代理人总是采取同样的行动，有什么建议？

我已经建立了一个健身房定制env和与虚拟随机测试剂是：到目前为止好，会发生什么情况正确地按照我的游戏规则

简而言之，我目前的空间是：

action_space = Multidiscrete([6,60,1122])
observation_space = Box(low=0,high=1122,shape=(1182,),dtype=np.float32)

请注意，最初我想要以下观察空间：

observation_space = Dict({
    'list1' : Box(low=0,high=6,shape=(1,1122),dtype=np.uint32),'list2' : Box(low=0,60),dtype=np.int32)
    })

...但由于没有稳定的基线可以处理快译通空间，我只好来连接两个列表，并使用一箱同时服用最高尺度。

然后我试图从稳定的基线3.我训练它上百万步（约1000万）训练PPO代理并测试它的环境：训练有素的代理人始终以相同的（傻）动作并没有任何反应。我重复与A2C剂和同样的事情发生。

我是新来的机器学习，所以我现在有点失落，需要一些方向前进：

因为我是一个相当长的时间后卡住使得环境...感谢任何意见，欢迎！