机器学习笔记之优化算法(十二)梯度下降法：凸函数VS强凸函数

原创

已于 2023-08-21 13:30:53 修改 · 2.9k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #凸函数 #强凸函数

于 2023-08-09 19:11:42 首次发布

机器学习笔记之优化算法——梯度下降法：凸函数VS强凸函数

引言

引言

本节将介绍凸函数、强凸函数以及它们之间的联系(补梯度下降法：总体介绍中的坑)。

凸函数：

凸函数的定义与判定条件

关于凸函数的定义表示如下：设 $f(\cdot)$ 为定义在空间 $\mathcal I$ 上的函数，若对 $\mathcal I$ 上的任意两点 $x_1,x_2$ 与任意实数 $\lambda \in (0,1)$ 总有：
通常将空间 $\mathcal I$ 设置为实数域与空间 $\Rightarrow \mathbb R^n$ 。
$f[\lambda \cdot x_2 + (1 - \lambda) \cdot x_1] \leq \lambda \cdot f(x_2) + (1 - \lambda) \cdot f(x_1)$
则称：函数 $f(\cdot)$ 为 $\mathcal I$ 上的凸函数。对应示例图像表示如下：
将其转化: $\lambda \cdot x_2 + (1 - \lambda)\cdot x_1 = x_1 + \lambda \cdot (x_2 - x_1)$ ,那么 $\lambda(x_2 - x_1)$ 可看作增量，而 $\lambda$ 可看作控制增量的参数。
凸函数定义示例
凸函数的一种判定条件：构造一个函数 $\mathcal G(t)$ ，满足：
$\mathcal G(t) \triangleq f(x + v \cdot t) \quad \forall x,v \in \mathbb R^n,t \in \mathbb R$
则有推论： $f(\cdot)$ 是凸函数 $\Leftrightarrow \mathcal G(t)$ 是凸函数。在一般情况下，我们面对的权重空间是一个高维空间，而在高维空间中的目标函数 $f(\cdot)$ 也通常是一个高维函数。假设：权重空间是一个 $2$ 维空间，对应的目标函数 $f(\cdot)$ 也是一个 $2$ 维函数：
即：输入变量的维度是 $2$ 维，而目标函数的输出结果是 $1$ 维标量。
$f(\cdot):\mathbb R^2 \mapsto \mathbb R$
那么如何验证 $f(\cdot)$ 描述的图像在高维空间中的曲面是否为凸的 $?$ 在介绍方向导数中提到：关于某一点 $x_0,y_0)$ 关于函数 $f(\cdot)$ 在方向 $\vec l$ 的方向导数 $\begin{aligned}\frac{\partial \mathcal Z}{\partial \vec l}|_{(x_0,y_0)}\end{aligned}$ 表示为下图中在 $\vec l$ 方向上过 $x_0,y_0)$ 做一个垂直于 $\mathcal X\mathcal O\mathcal Y$ 的平面，平面与 $f(\cdot)$ 相交的图像在 $x_0,y_0)$ 处的斜率结果：

其中黄色菱形部分表示垂直于 $\mathcal X\mathcal O\mathcal Y$ 平面在 $\vec l$ 方向上并过 $x_0,y_0)$ 黄色点的平面;红色点则表示 $x_0,y_0)$ 在函数 $f(\cdot)$ 上的结果;而黑色实线则表示过映射点与函数图像相切的直线，其斜率即方向导数 $\begin{aligned}\frac{\partial \mathcal Z}{\partial \vec l}|_{(x_0,y_0)}\end{aligned}$ 。

方向导数定义——示例
但这里我们并不关注方向导数，而是关注平面与函数图像之间相交所产生的截线的形状。可以观察上述图像对应的俯视图结果：
无论是上图还是俯视图，都没有对 $f (x, y)$ 进行完全表示，这仅仅是其中一部分图像。
俯视图效果
从俯视图角度可以看到：黄色截面简化成了一条直线。这实际上可看做上述判定条件中函数 $\cdot t$ 的某一种结果。而对应的 $\cdot t)$ 则表达：截面与函数图像之间相交产生的截线。

如果从向量的角度认识，以下面红色直线为例：
判定条件2示例
其中 $x, v$ 是任意 $\mathbb R^n$ 的向量，从而 $\cdot t$ 可表示为该图黑色虚线的结果。由于 $\in \mathbb R$ ，如果我们将所有的 $t$ 全部取到，那么最终构成 $\cdot t$ 构成向量的集合就是红色直线的结果。

关于向量 $v$ ,我们通常将其视作单位向量。因为即便不是单位向量，在转化为单位向量过程中得到的标量系数 $k$ 也可以与 $t$ 进行合并: $\in\mathbb R \Rightarrow k \cdot t \in \mathbb R$ 。
如果将 $v$ 看作单位向量 $\vec e(\cos \alpha,\cos\beta)$ ,那么过点 $\mathcal P(x_0,y_0)$ ，并且方向与 $\vec e$ 平行的直线参数方程可表示为：
$\mathcal Y = (x_0,y_0) + t \cdot \vec e = (x_0,y_0) + t \cdot (\cos\alpha,\cos\beta)$