如何解决软演员批评家如何确切地避免最大化偏差?
在软演员评论家中,最小q值的使用方式类似于double-q学习,以避免最大化偏差。即使paper提到应单独训练两个q表,但从本文的伪代码和多种实现方式(例如与implementation链接的openai的基线documentation)看来,通过相同的经验更新两个q表。还会造成最大化偏差吗?
此外,我还使用了其他人的code(和this environment,它们复制了Richard Sutton的RL书的ch。6图6.5),以证明如果一个人一次仅使用q训练一张q表(网络)通过另一个q表获得的值,一旦建立右臂使其成为更好的选择,结果将更加稳定。 (它在大约三十集后保持在零,而最初的算法甚至达到了八十集。)
可以看到here的振荡版本,可以看到here的改编版本(使用第一个存储库第5章中的DQN代码)。
对于我在示例(rl-book)中使用的实现,其背后的原因是因为v是使用相同的经验进行更新的,因为它们不是独立的试验,因此无法使q函数免受最大化偏差的影响。但是在稳定的基础上,我对两个q函数使用了不同的经验,将max-q选择和q值更新解耦。
似乎基线的实现也使用了相同的经验来更新bot q函数(self._sess.run使用相同的feed dict来馈送所有提取),但我可能是错的。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。