DQN究竟是如何学习的？

我在 gym 中创建了我的自定义环境，这是一个迷宫。我使用带有 DQN 的 BoltzmannQPolicy 模型。它可以很好地训练以下变量：

所以我不给它图片或任何东西。如果我在相同的环境（相同的迷宫，不改变墙壁的位置）中训练和测试它，它可以轻松解决。但是如果我在没有训练的情况下将它引入一个完全不同的环境（迷宫），那么它不知道该怎么做。不知道是我的代码有问题，还是DQN只是为了解决同样的环境。