微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

DQN在CartPole问题上的表现-要解决多少集?

如何解决DQN在CartPole问题上的表现-要解决多少集?

嗨,AI爱好者,

我自己以及我见过的大多数其他CartPole代理程序需要> 1000集(如果不是几千个,取决于RNG)才能开始学习并最终收敛到一个解决方案”(被认为具有在连续200的游戏中获得100的得分)。 虽然我很高兴我的经纪人最终能够学习和解决CartPole问题,但每集的平均时间最多可播放10秒(逐步经过环境,直到完成该集),并进行3到5秒钟的训练batch_size of 64。因此,对于这样一个简单的问题,总培训时间为几个小时

现在,我找到了这个OpenAI排行榜实现,它可以在一个之内解决问题。单个情节足以使该特工学习它需要知道的所有内容,然后在播放后相当成功:

https://gym.openai.com/evaluations/eval_L0nIc9FQzKF7pcn60L7A/

很明显,此代理程序未使用Torch或Keras,而是使用NumPy数组和MalMul操作(仅具有8个不同的权重)实现了自己的逻辑。

如何从单个情节中学习?可以在Keras中实现吗?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。