（斯坦福机器学习课程笔记）牛顿法算法学习

最新推荐文章于 2025-07-11 11:10:49 发布

万德1010

最新推荐文章于 2025-07-11 11:10:49 发布

阅读量4.3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习算法

24 篇文章

订阅专栏

这篇博客主要介绍了牛顿法在机器学习中的应用，特别是用于寻找函数极值点的过程。通过泰勒公式二阶展开解释了牛顿法的迭代原理，并对比了牛顿法与梯度下降法在优化问题上的差异。尽管牛顿法因计算二阶导数的Hessian矩阵导致效率较低，但在适当情况下能提供更快的收敛速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

代码均使用PYTHON3.x

牛顿法算法复杂些，作以下笔记备忘。

为了找到 $f(x)$ 取极值的点，即，牛顿法的思路是：
1、牛顿法只是求 $f(x)=0$ 的根！！！！！！！（x可以是向量）
2、初始化一个 $x_0$ 点，在 $x=x_0$ 的条件下做曲线的切线

f ( x ) - f ( x 0 ) x - x 0 = \nabla f (x 0)

$\frac{f(x)-f(x_0)}{x-x_0}=\nabla f(x_0)$
3、求切线上

f(x)=0 $f(x)=0$ 的点，令f(x)=0，得

x = x 0 - f ( x 0 ) \nabla f ( x 0 )

$x=x_0-\frac{f(x_0)}{\nabla f(x_0)}$
4、迭代方法为

x n + 1 = x n - f ( x n ) \nabla f ( x n )

$x_{n+1}=x_{n}-\frac{f(x_n)}{\nabla f(x_n)}$

以上是牛顿法的迭代步骤
以下是牛顿法用于优化问题
5、上面说了牛顿法只是求出 $f(x)=0$ 的根。如果要用牛顿法求极值点，**分别对
$\nabla cost(\theta)$ 的每个分量用牛顿法**，就可以得到代价函数的极值条件了

6、代价函数的迭代步骤是

x n + 1 = x n - \nabla c ( x n ) \nabla 2 c ( x n )

$x_{n+1}=x_{n}-\frac{\nabla c(x_n)}{\nabla^2 c(x_n)}$
(为了不出现歧义，将f(x)改成了c(x))
或者写成

x n + 1 = x n - [\nabla 2 c (x n)] - 1 \nabla c (x n)

$x_{n+1}=x_{n}-[\nabla^2 c(x_n)]^{-1}\nabla c(x_n)$
其中

∇2 $\nabla ^2$ 是hessian矩阵

==================================================
为了加深理解，这里是另一种理解方法，但以下我的理解是不完整的
将 $f(x)$ 用泰勒公式二阶展开，得

f (x) = f (x 0) + \nabla f (x 0) (x - x 0) + \nabla 2 f ( x 0 ) ( x - x 0 ) 2

$f(x)=f(x_0)+\nabla f(x_0)(x-x_0)+{\nabla^2 f(x_0)(x-x_0)\over 2}$
其中，

f(x) $f(x)$ 就是代价函数，方程右边是关于

x−x0 $x-x_0$ 的二次方程，在

x - x 0 = - \nabla f ( x 0 ) \nabla 2 f ( x 0 )

$x-x_0=-{\nabla f(x_0)\over \nabla^2 f(x_0)}$
取极值。由于泰勒公式二阶展开只是一个估算，得出的值只是比初始值更接近的值，所以要经过迭代算法得出更接近的值（缺迭代可以收敛的证明）

======================================================
牛顿法与梯度下降法的比较
梯度下降法的迭代公式是

x n + 1 = x n - a \nabla f (x n)

$x_{n+1}=x_n-a\nabla f(x_n)$
其中

a $a$ 是学习率，

f(x) $f(x)$ 是代价函数

而牛顿法用于优化问题的迭代公式是

x n + 1 = x n - \nabla f ( x n ) \nabla 2 f ( x n )

$x_{n+1}=x_{n}-\frac{\nabla f(x_n)}{\nabla^2 f(x_n)}$
可以看到，与梯度下降法相比，牛顿法只是将学习率

a $a$ 替换成了

∇2f(xn)−1 $\nabla^2 f(x_n)^{-1}$

这可以理解为，梯度下降法和牛顿法的区别是：牛顿法根据代价函数的二阶导数信息，自动计算出了合适的学习率，因此有更快的迭代速度。而作为交换，牛顿法需要计算庞大的hessian矩阵，矩阵的大小为参数个数 * 参数个数，计算速度慢，消耗资源大。
因此实际中，牛顿法并不常用。