学习和纯优化的不同
经验风险最小化
将机器学习问题转化为一个优化问题的最简单方法是最小化训练集上的期望损失????
优化时不知道真实数据分布,只知道训练集中的样本分布。
自己理解:书中所说的”我们并不直接最优化风险,而是最优化经验风险,希望能够很大的降低风险“即我们在具体训练过程中没有办法得到真实数据,也就是测试集数据分布,不可能用测试集分布来进行最优化调参,只能采用训练集中的数据,利用这些数据来进行最优调参,这些数据也就是所谓的”经验“。所以这里称为经验风险最小化。
但是8.3的公式不知道为什么左边是期望右边直接就是累加
经验风险最小化中的两个问题
- 容易导致过拟合
- 很多损失函数没有有效的导数,无法基于梯度下降进行最优化
因此在深度学习中我们很少使用经验风险最小化。
代理损失函数和提前终止
????
批量算法和小批量算法
进行梯度估计时汇报是小于线性的,,,是什么意思0
剩下的也没看懂 gg
深度网络优化中的挑战
病态
这个里面需要复习一个知识点:二阶泰勒级数
局部最小值
对于非凸函数,如神经网络,有可能存在多个局部最小值,但这不是主要问题
模型可辨识性???
多个局部最小值并非是非凸带来的问题,还有因为不可辨识问题产生的。
高原鞍点和其他平坦区域
??
悬崖和梯度爆炸、
解决方法,梯度截断
出现情景:循环神经网络
长期依赖
书中:由于变深的结构使模型丧失了学习到先前信息的能力,让优化变得困难????
越深的网络结构不应该对信息的表征能力更强吗?还能学着学着就忘了???迷茫…
感觉只能在学过循环学习后才能了解这个问题
非精确梯度
学目标检测感觉用不到这个玩意,大概意思就是说由于噪声的存在只能近似梯度。解决方法就是使用上面提到的代理损失函数
局部和全局结构间的弱对应
优化的理论限制
基本算法
随机梯度下降SGD
参考https://www.cnblogs.com/guoyaohua/p/8542554.html
书中SGD是MBGD吧,随机梯度怎么又使用了小批量呢?
从算法8.1中可以看到在计算梯度更新时并非使用了单一的数据,而是每次求xi和yi求和之后对应的梯度均值,参考https://www.cnblogs.com/lliuye/p/9451903.html,随机梯度下降中不应该有求和符号
关于随机梯度下降中的关键参数:学习率
动量
自我理解:普通的梯度下降就是,在下坡的时候每走一步基于梯度简单更新一下自己当前所处的位置。
使用动量算法相当于加了个速度对比算法8.1和公式8.15、8.16可以看出,动量其实就是在位置更新的时候加上了一个梯度元素,以权重a对该位置产生影响。也就是说,普通的梯度下降中只是当前样本,动量是包含了之前梯度的影响。
8.4参数初始化策略
初始化参数需要在不同单元间“破坏对称性”