优先序列体验回放：了解它是如何工作的

我对优先序列体验重放实施 (PSER) 方法的理解如下：

代理将经验添加到转换中，我们计算其 TD-loss。然后我们计算该体验的优先级并反向传播，这样做：

pn−1 = max{pn · ρ,pn−1}
pn−2 = max{pn · ρ 2,pn−2}

等等。

目前在标准 PER 实现中，您抽取一批经验并计算出每个经验的 td-loss，然后用这些各自的损失替换优先级。我的问题是，这不会覆盖我们在第一部分所做的事情（在哪里传播优先级？）