我可以在不更新培训代理的情况下培训DQN吗？

我是RL中的新手，所以如果我问愚蠢的问题，请原谅我：）

我现在正在处理DQN项目，它与最简单的蛇游戏非常相似。该游戏使用js编写，并有一个演示（蛇在其中随机移动）。但是由于我不知道如何编写js，所以我无法在训练过程中将动作值传递给游戏，所以我现在要做的是生成随机游戏图像并训练dqn模型。

我想问的是：是否可以通过这种方式进行？ Q（s，r）还能收敛吗？如果有可能，我应该注意什么？我是否需要Episilon参数了？

非常感谢：）

我肯定会拒绝！

问题是代理只会从随机决策中学习，如果学习的动作产生更多的奖励，则永远不会尝试。所以他学到的一切都将基于起始帧。此外，在您的情况下，代理永远不会学习如何处理他的大小（如果它像蛇一样增长），因为他永远不会因为糟糕的随机决策而增长。

想象一下，一个孩子试图骑自行车，一旦它骑了 1 米，你就把它从自行车上取下来。它可能能够直行一米甚至更多米，但永远无法转弯等。