结合资料,对于Batch Normalization有了一些自己的理解。 1.BN可以解决梯度消失的问题。 假设激活函数为sigmoid. al=sigmoid(hl)=sigmoid(al−1∗wl) 因为在反向传播中: ∂g∂w