如果我们从最后一层一次更新一个反向传播中的参数会怎样？

如何解决如果我们从最后一层一次更新一个反向传播中的参数会怎样？

假设我们有一个具有一个输入层、一个输出层和一个隐藏层的神经网络。让我们将输入到隐藏的权重称为 ?，将隐藏到输出的权重称为 ?。假设我们已经初始化了 ? 和 ?，并通过前向算法/pass 将它们运行在神经网络中。假设我们已经通过反向传播更新了?。现在不是同时更新 ?，如果我们使用新的 ? 计算梯度，然后同时更新 ? 和 ? 会怎样。然后再一次前向传递，计算梯度，更新?，计算新的梯度，同时更新?和?，依此类推。我已经这样做了，它导致成本函数的收敛速度更快。