DQN在CartPole问题上的表现-要解决多少集？

如何解决DQN在CartPole问题上的表现-要解决多少集？

嗨，AI爱好者，

我自己以及我见过的大多数其他CartPole代理程序需要> 1000集（如果不是几千个，取决于RNG）才能开始学习并最终收敛到一个“解决方案”（被认为具有在连续200的游戏中获得100的得分）。虽然我很高兴我的经纪人最终能够学习和解决CartPole问题，但每集的平均时间最多可播放10秒（逐步经过环境，直到完成该集），并进行3到5秒钟的训练batch_size of 64。因此，对于这样一个简单的问题，总培训时间为几个小时。

现在，我找到了这个OpenAI排行榜实现，它可以在一个秒之内解决问题。单个情节足以使该特工学习它需要知道的所有内容，然后在播放后相当成功：

https://gym.openai.com/evaluations/eval_L0nIc9FQzKF7pcn60L7A/

很明显，此代理程序未使用Torch或Keras，而是使用NumPy数组和MalMul操作（仅具有8个不同的权重）实现了自己的逻辑。

如何从单个情节中学习？可以在Keras中实现吗？