机器学习三要素:
- 模型:根据具体问题,确定假设空间
- 策略:根据评价标准,确定选取最优模型的策略(损失函数由此诞生)
- 算法:求解损失函数,得出最优模型
解释下列公式推导:
Ew^=(y−Xw^)T(y−Xw^)E_{\hat{w}} = (\boldsymbol{y} - \mathbf{X}\hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y} - \mathbf{X}\hat{\boldsymbol{w}})Ew^=(y−Xw^)T(y−Xw^)求导得到
∂Ew^∂w^=2XT(Xw^−y)\frac{\partial E_{\hat{w}}}{\partial \hat{\boldsymbol{w}}} = 2\mathbf{X}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol{w}} - \boldsymbol{y})∂w^∂Ew^=2XT(Xw^−y)
为了求导,先展开这个表达式。根据矩阵乘法的性质,我们可以将其展开为:
Ew^=(yT−w^TXT)(y−Xw^)E_{\hat{w}} = (\boldsymbol{y}^{\mathrm{T}} - \hat{\boldsymbol{w}}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}})(\boldsymbol{y} - \mathbf{X}\hat{\boldsymbol{w}}) Ew^=(yT−w^TXT)(y−Xw^)Ew^=yTy−yTXw^−w^TXTy+w^TXTXw^ E_{\hat{w}} = \boldsymbol{y}^{\mathrm{T}}\boldsymbol{y} - \boldsymbol{y}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol{w}} - \hat{\boldsymbol{w}}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\boldsymbol{y} + \hat{\boldsymbol{w}}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol{w}} Ew^=yTy−yTXw^−w^TXTy+w^TXTXw^
由于 yTXw^\boldsymbol{y}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol{w}}yTXw^ 和 w^TXTy\hat{\boldsymbol{w}}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\boldsymbol{y}w^TXTy是同一个值,因此可以合并:
Ew^=yTy−2w^TXTy+w^TXTXw^E_{\hat{w}} = \boldsymbol{y}^{\mathrm{T}}\boldsymbol{y} - 2\hat{\boldsymbol{w}}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\boldsymbol{y} + \hat{\boldsymbol{w}}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol{w}}
Ew^=yTy−2w^TXTy+w^TXTXw^ 对 w^\hat{\boldsymbol{w}}w^ 求导
逐项求导:
- yTy\boldsymbol{y}^{\mathrm{T}}\boldsymbol{y}yTy 是常数,对 w^\hat{\boldsymbol{w}}w^ 的导数为 0。
- −2w^TXTy-2\hat{\boldsymbol{w}}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\boldsymbol{y}−2w^TXTy的导数为 −2XTy-2\mathbf{X}^{\mathrm{T}}\boldsymbol{y}−2XTy。
- w^TXTXw^的导数为2XTXw^\hat{\boldsymbol{w}}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol{w}} 的导数为2\mathbf{X}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol{w}}w^TXTXw^的导数为2XTXw^。
因此,总导数为:
∂Ew^∂w^=−2XTy+2XTXw^ \frac{\partial E_{\hat{w}}}{\partial \hat{\boldsymbol{w}}} = -2\mathbf{X}^{\mathrm{T}}\boldsymbol{y} + 2\mathbf{X}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol{w}} ∂w^∂Ew^=−2XTy+2XTXw^
简化后得到:∂Ew^∂w^=2XT(Xw^−y)\frac{\partial E_{\hat{w}}}{\partial \hat{\boldsymbol{w}}} = 2\mathbf{X}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol{w}} - \boldsymbol{y})∂w^∂Ew^=2XT(Xw^−y)
总结:
task02总体来讲偏向入门(每次学习都卡在线性回归这一块,算是深度学习中的abandon),适合回顾之前的线代知识,在南瓜书视频中学到了一些巧妙的推导方法。