如何解决了解openAI 5的模型1024个单元的LSTM强化学习
我最近遇到过openAI5。我很想知道他们的模型是如何构建和理解的。我在wikipedia中读到,它“包含一个具有1024个单位的LSTM的单层”。然后我发现this pdf包含该体系结构的方案。
我的问题
从这一切我不了解几件事:
-
拥有1024个单元的LSTM层是什么意思?这是否意味着单个LSTM单元具有1024个时间步长,或者这意味着我们具有1024个单元。您能给我看一些图形化的图表吗?我特别难以在一层中可视化1024个单元。 (我尝试查看诸如1,2或openAI 5 blog之类的几个SO问题,但是它们并没有太大帮助。)
-
如何在这种模型上进行强化学习?我已经习惯了将RL与Q表一起使用,并且在训练过程中对其进行了更新。这仅表示他们的损失函数就是报酬吗?
-
为什么这么大的模型不会遭受梯度消失或什么的困扰?在pdf中还没有看到任何类型的规范化。
-
在pdf中,您可以看到一个蓝色矩形,看起来像是一个单位,其中有
N
个。这是什么意思?如果我弄错了,请纠正我,粉红色的框用于选择最佳的举动/项目(?)
通常,所有这些都可以概括为“ openAI 5模型如何工作?
解决方法
-
这意味着隐藏状态的大小为1024个单位,这实际上意味着LSTM在每个时间步中都有1024个单元。我们事先不知道会有多少时间。
-
LSTM的状态(隐藏状态)表示代理所观察到的当前状态。它会使用收到的输入在每个时间步更新。该隐藏状态可用于预测Q函数(如在深度Q学习中一样)。您没有
(state,action) -> q_value
的显式表,而是具有1024个大小的向量,该向量表示状态并馈入另一个密集层,该层将输出所有可能动作的q_values。 -
LSTM是帮助停止消失梯度的机制,因为长距离记忆还使梯度更容易回流。
-
如果您指的是蓝色和粉红色的大框,那么粉红色的框似乎是通过网络放置并汇总到每个拾取器或修改器上的输入值。每个单位的蓝色空间似乎都是相同的。术语“拾取”,“修饰符”,“单位”等在他们正在玩的游戏中应该有意义。
向量h是LSTM的隐藏状态,该状态将传递到下一个时间步并用作该时间步的输出。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。