在反向传播期间是否总是使用梯度下降来更新权重？

Gradient Descent、rmsprop、adam 是优化器。假设我在编译模型时使用了 adam 或 rmsprop 优化器，即 model.compile(optimizer = "adam").

我的疑问是，现在在反向传播过程中，是使用梯度下降来更新权重还是使用 Adam 来更新权重？

我们使用梯度下降来计算梯度，然后通过反向传播更新权重。有很多优化器，比如你提到的优化器等等。

优化器使用自适应学习率。通过自适应损失，我们有更多的自由度来增加我在 y 方向上的学习率并沿 x 方向减少。他们不会停留在一个方向上，而且他们能够在一个方向上相对于另一个方向进行更多的穿越。

RMSprop 对梯度历史使用类似动量的指数衰减。极端过去的梯度影响较小。它通过将梯度累积更改为指数加权移动平均值来修改 AdaGrad 优化器，使其在非凸设置中表现更好。

Adam（自适应矩）调用梯度矩的 1 次方和 2 次方，并在这两个矩上使用类似动量的衰减。此外，它使用偏差校正来避免力矩的初始不稳定性。

如何选择一个？

取决于我们要解决的问题。最好的算法是能够很好地遍历该问题的损失的算法。

经验比数学更重要