如何解决DQN究竟是如何学习的?
我在 gym
中创建了我的自定义环境,这是一个迷宫。我使用带有 DQN
的 BoltzmannQPolicy
模型。
它可以很好地训练以下变量:
- 代理位置
- 到终点的距离
- 端点位置
- 它可以移动到哪些方向
所以我不给它图片或任何东西。如果我在相同的环境(相同的迷宫,不改变墙壁的位置)中训练和测试它,它可以轻松解决。但是如果我在没有训练的情况下将它引入一个完全不同的环境(迷宫),那么它不知道该怎么做。不知道是我的代码有问题,还是DQN
只是为了解决同样的环境。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。