机器学习笔记之最优化理论与算法(十二)无约束优化问题——共轭梯度法

最新推荐文章于 2024-04-24 09:41:06 发布

静静的喝酒

最新推荐文章于 2024-04-24 09:41:06 发布

阅读量1.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：最优化理论与方法机器学习深度学习文章标签：共轭梯度法非线性共轭梯度法 FR方法 PRP方法 n步重启策略

本文链接：https://blog.csdn.net/qq_34758157/article/details/132836543

机器学习笔记之最优化理论与方法——共轭梯度法

引言

引言

上一节主要介绍了共轭方向法的重要特征以及相关证明，本节将介绍共轭方向法的代表算法——共轭梯度法。

回顾：共轭方向法的重要特征

关于凸二次函数 $f (x)$ 的优化问题： $\begin{aligned}\min f(x) = \frac{1}{2}x^T \mathcal Qx + \mathcal C^T x \end{aligned}$ ，给定初始点 $x_0$ 以及关于正交矩阵 $\mathcal Q$ 的一系列共轭方向： $\mathcal D = \{d_0,d_1,\cdots,d_{n-1}\}$ ，在迭代过程中的输出位置 $x_k(k=1,2,\cdots,n)$ 表示如下：
$x_k = x_{k-1} + \alpha_{k-1} \cdot d_{k-1} \quad k = 1,2,\cdots,n$

基于上述操作产生的数值解序列 ${x_k\}_{k=1}^n$ 具有如下特征：

目标函数 $f(\cdot)$ 在输出位置 $x_k$ 处的梯度 $\nabla f(x_k)$ 与迭代过程中使用过的共轭方向 $d_i(i=0,1,\cdots,k-1)$ 均相互垂直：
$[\nabla f(x_k)]^T d_i = 0 \quad i=0,1,\cdots,k-1$
如果定义集合 $\mathcal X_k$ 为 $k$ 次迭代过程中 $x_k$ 可选择的位置空间：
$\mathcal X_k = \left\{x_0 + \sum_{i=0}^{k-1} \alpha_i \cdot d_i \mid \alpha_i \in \mathbb R\right\}$
那么如果 $x_k$ 是第 $k$ 次迭代的最优解，等价于：
$x_k = \mathop{\arg\min}\limits_{x} \left\{\frac{1}{2} x^T \mathcal Q x + \mathcal C^T x \mid x \in \mathcal X_k \right\}$
并且当 $k = n$ 时，此时的位置空间 $\mathcal X_n$ 就是由共轭方向 $d_0,d_1,\cdots,d_{n-1}$ 描述的投影空间： $\mathcal X_n \in \mathbb R^n$ ，因而目标函数 $f (x)$ 必然可以通过最多 $n$ 次迭代找到最优解。
- 首先，投影空间与原始特征空间不同，它是将正定矩阵 $\mathcal Q$ 对角化后的特征空间效果;
- 该特征空间是由共轭方向 $d_i(i=0,1,\cdots,n-1)$ 但并不是说它们是正交基：
  $\forall d_i,d_j \in \mathcal D,i \neq j \Rightarrow (d_i)^T \mathcal Q d_j = 0$
  令 $\mathcal Q = \mathcal P^2 = \mathcal P^T \mathcal P$ ，其中 $\mathcal P$ 同样是正定矩阵。有：
  $\begin{aligned} (d_i)^T \mathcal Q d_j & = (d_i)^T \mathcal P^T \mathcal P d_j \\ & = (\mathcal P d_i)^T (\mathcal P d_j) = 0 \end{aligned}$
  可以看出： $\mathcal P d_i(i=0,1,\cdots,n-1)$ 才是投影空间的正交基。当然 $d_i$ 也有成为正交基的情况，即： $\mathcal Q = \mathcal P^2 = \mathcal P \Rightarrow \mathcal P = \mathcal I$ 。其中 $\mathcal I$ 表示单位矩阵。

线性共轭梯度法

显然，上面存在被我们忽视的核心问题：如何通过一种简单方式获取一组共轭方向 $?$

而共轭梯度法构造共轭方向的思想在于：在迭代下降的过程中，借助当前位置 $x_k$ 的梯度信息构造共轭方向。对应算法步骤表示如下：
该操作是在迭代过程的同时构造梯度方向：初始化 $d_0$ ,在构造新的共轭方向 $d_1$ 时，需要保证其与 $d_0$ 共轭；在构造 $d_2$ 时，需要保证其与 $d_0,d_1$ 均相互共轭，以此类推。

初始化操作：

给定初始点 $x_0$ ，记 $d_0 = -\nabla f(x_0)$ ；设置阈值 $\epsilon > 0$ ； $k = 0$

算法过程：

事先判断 $\|\nabla f(x_k)\| \leq \epsilon$ 是否成立 $?$ 是，则算法终止；
计算当前迭代步骤的最优步长 $\alpha_k$ ：
求解过程详见共轭梯度法背景介绍
$\alpha_k = - \frac{[\nabla f(x_k)]^T d_k}{(d_k)^T \mathcal Q d_k}$
计算新位置点： $x_{k+1} = x_k + \alpha_k \cdot d_k$ ，并计算共轭方向 $d_{k+1}$ ：
$d_{k+1} = -\nabla f(x_{k+1}) + \beta_k \cdot d_k,\beta_k = \frac{[\nabla f(x_{k+1})]^T \mathcal Q d_k}{(d_k)^T \mathcal Q d_k}$