1.为什么均方差(MSE)不适合分类问题? 当sigmoid函数和MSE一起使用时会出现梯度消失。原因如下: (1)MSE对参数的偏导 (2)corss-entropy对参数的偏导 由上述公式可以看出,在使用MSE时,w、b的梯度均与sigmoid函数对z的偏导有关系,而sigmoid函数的偏导在自变量非常大或者非常小时,偏导数的值接近于零,这将导致w、b的梯度将不会变化,也就是出现所谓的梯度消失现象。而使用cross-entropy时,w、b的梯度就不会出现上述的情况。所以MSE不适用于分类问题。