微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

优先序列体验回放:了解它是如何工作的

如何解决优先序列体验回放:了解它是如何工作的

我对优先序列体验重放实施 (PSER) 方法的理解如下:

代理将经验添加到转换中,我们计算其 TD-loss。然后我们计算该体验的优先级并反向传播,这样做:

pn−1 = max{pn · ρ,pn−1}
pn−2 = max{pn · ρ 2,pn−2}

等等。

目前在标准 PER 实现中,您抽取一批经验并计算出每个经验的 td-loss,然后用这些各自的损失替换优先级。我的问题是,这不会覆盖我们在第一部分所做的事情(在哪里传播优先级?)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。