微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

我可以在不更新培训代理的情况下培训DQN吗?

如何解决我可以在不更新培训代理的情况下培训DQN吗?

我是RL中的新手,所以如果我问愚蠢的问题,请原谅我:)

我现在正在处理DQN项目,它与最简单的蛇游戏非常相似。该游戏使用js编写,并有一个演示(蛇在其中随机移动)。但是由于我不知道如何编写js,所以我无法在训练过程中将动作值传递给游戏,所以我现在要做的是生成随机游戏图像并训练dqn模型。

我想问的是:是否可以通过这种方式进行? Q(s,r)还能收敛吗?如果有可能,我应该注意什么?我是否需要Episilon参数了?

非常感谢:)

解决方法

我肯定会拒绝!

问题是代理只会从随机决策中学习,如果学习的动作产生更多的奖励,则永远不会尝试。所以他学到的一切都将基于起始帧。 此外,在您的情况下,代理永远不会学习如何处理他的大小(如果它像蛇一样增长),因为他永远不会因为糟糕的随机决策而增长。

想象一下,一个孩子试图骑自行车,一旦它骑了 1 米,你就把它从自行车上取下来。它可能能够直行一米甚至更多米,但永远无法转弯等。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。