反向传播和梯度下降使用相同的逻辑吗？

反向传播在 CNN 中用于更新随机分配的权重、偏差和过滤器。对于值的更新，我们使用链式法则从头到尾找到梯度，并使用公式，

New Value = old value - (learning Rate * gradient)

Gradient Descent 是一个优化器，用于优化损失函数。这里也计算梯度，公式为

New value = old value - (learning Rate * gradient)

如果我上面给出的解释有误，请纠正我。

我的疑问是：

所以你会感到困惑，反向传播只是颠倒你移动顺序的名称，通常在正向传播中你向前移动每一层，但在反向传播中你向后移动。

您可以将传播视为神经网络的引擎，在前向传播中它向前移动，在反向传播中它向后移动。引擎不做任何计算，它只是用来定义你在哪一层，在哪一层。

在反向传播中，您有成本函数。您可以使用的一种成本函数类型称为 Gradient Descent 算法。另一种可能是 Stochastic Gradient Descent 算法。这些算法用于找到调整权重的最佳值。

我希望这能解决您的问题，如果您需要更多信息，请发表评论。如果您想了解更多有关 Gradient Descent 或 Stochastic Gradient Descent 的详细信息，我建议您查看我之前的一些回答 here 和 here。

再见，祝你有美好的一天！

反向传播是神经网络的梯度下降。梯度下降是更通用的一阶迭代优化算法来逼近可微函数。使用它来训练多层神经网络（其中每一层代表一个可微函数），我们可以为这种类型的模型推导出更专业的算法（处理我们有隐藏单元的事实）。由此产生的算法称为反向传播。

在每次训练迭代显示多少数据的特定上下文中，可以在 SGD 和 GD 之间创建一个 second distinction（请参阅 James Barnett 的回答），尽管我认为术语“小批量学习" 如果想将其与随机梯度下降进行对比，则更精确。