1: 初始化前向传播结果
首先,执行前向传播,计算每一层的激活值 A[L] 和线性输出 Z[L],将这些中间结果存储起来,以便在反向传播时使用。
2:计算输出层的损失函数的导数
如果是Sigmoid 激活函数
dZ[l]=A[l]−YdZ^{\left[l\right]}=A^{\left[l\right]}-YdZ[l]=A[l]−Y
3: 对每一层逐层向后计算梯度
dW[l]=1mdZ[l]A[l−1]TdW^{\left[l\right]}=\frac{1}{m}dZ^{\left[l\right]}A^{\left[l-1\right]T}dW[l]