微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在反向传播期间是否总是使用梯度下降来更新权重?

如何解决在反向传播期间是否总是使用梯度下降来更新权重?

Gradient Descent、rmsprop、adam 是优化器。假设我在编译模型时使用了 adam 或 rmsprop 优化器,即 model.compile(optimizer = "adam").

我的疑问是,现在在反向传播过程中,是使用梯度下降来更新权重还是使用 Adam 来更新权重?

解决方法

我们使用梯度下降来计算梯度,然后通过反向传播更新权重。有很多优化器,比如你提到的优化器等等。

优化器使用自适应学习率。通过自适应损失,我们有更多的自由度来增加我在 y 方向上的学习率并沿 x 方向减少。他们不会停留在一个方向上,而且他们能够在一个方向上相对于另一个方向进行更多的穿越。

RMSprop 对梯度历史使用类似动量的指数衰减。极端过去的梯度影响较小。它通过将梯度累积更改为指数加权移动平均值来修改 AdaGrad 优化器,使其在非凸设置中表现更好。

Adam(自适应矩)调用梯度矩的 1 次方和 2 次方,并在这两个矩上使用类似动量的衰减。此外,它使用偏差校正来避免力矩的初始不稳定性。

如何选择一个?

取决于我们要解决的问题。最好的算法是能够很好地遍历该问题的损失的算法。

经验比数学更重要

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。