梯度下降方法介绍
学习目标
- 掌握梯度下降法的推导过程
- 知道全梯度下降算法的原理
- 知道随机梯度下降算法的原理
- 知道随机平均梯度下降算法的原理
- 知道小批量梯度下降算法的原理
上一节中给大家介绍了最基本的梯度下降法实现流程,本节我们将进一步介绍
梯度下降法的详细过算法推导过程和
常见的梯度下降算法。
1 详解梯度下降算法
1.1梯度下降的相关概念复习
在详细了解梯度下降的算法之前,我们先复习相关的一些概念。
- 步长(Learning rate):
- 步长决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。用前面下山的例子,步长就是在当前这一步所在位置沿着最陡峭最易下山的位置走的那一步的长度。
- 特征(feature):
- 指的是样本中输入部分,比如2个单特征的样本

- - 则第一个样本特征为x^(0),第一个样本输出为y^(0)。
- 假设函数(hypothesis function):
- 在监督学习中,为了拟合输入样本,而使用的假设函数,记为
- 在监督学习中,为了拟合输入样本,而使用的假设函数,记为

- 比如对于单个特征的m个样本

可以采用拟合函数如下:

- 损失函数(loss function):