基于概率原理的对偶监督学习:原理、算法与应用
立即解锁
发布时间: 2025-09-02 01:02:30 阅读量: 9 订阅数: 10 AIGC 

### 基于概率原理的对偶监督学习:原理、算法与应用
#### 1. 概率视角下的结构对偶性
结构对偶性可以从概率的角度进行解读。基于不同的概率方程和不同的设置,有几种利用结构对偶性的对偶学习算法,主要包括:
- 对偶监督学习:利用联合概率约束来增强对标记数据的学习。
- 对偶推理:在推理中利用条件概率约束。
- 对偶半监督学习:利用边缘概率约束从无标记数据中学习。
#### 2. 对偶监督学习的联合概率原理
在监督学习的场景中,我们考虑如何利用结构对偶性来增强对标记数据的学习。首先定义一些符号:
- 原任务:将空间 $X$ 中的样本作为输入,映射到空间 $Y$。用概率语言表示,原任务学习一个由 $\theta_{XY}$ 参数化的条件分布 $P(y|x; \theta_{XY})$。
- 对偶任务:将空间 $Y$ 中的样本作为输入,映射到空间 $X$。对偶任务学习一个由 $\theta_{YX}$ 参数化的条件分布 $P(x|y; \theta_{YX})$,其中 $x \in X$ 且 $y \in Y$。
对于任意的 $x \in X$ 和 $y \in Y$,联合概率 $P(x, y)$ 可以通过两种等价的方式计算:$P(x, y) = P(x)P(y|x) = P(y)P(x|y)$。如果两个模型 $\theta_{XY}$ 和 $\theta_{YX}$ 是完美的,它们参数化的条件分布应满足以下等式:
$P(x)P(y|x; \theta_{XY}) = P(y)P(x|y; \theta_{YX}), \forall x \in X, y \in Y$ (7.1)
这个等式从概率的角度定义了原模型 $\theta_{XY}$ 和对偶模型 $\theta_{YX}$ 之间的关系,我们称之为联合概率原理。
然而,如果两个模型(条件分布)通过最小化各自的损失函数分别进行训练(这是机器学习中的主要做法),并不能保证上述等式成立。对偶监督学习的基本思想是在等式 (7.1) 的约束下,通过最小化两个模型 $\theta_{XY}$ 和 $\theta_{YX}$ 的损失函数来联合训练这两个模型。这样做可以明确加强 $\theta_{YX}$ 和 $\theta_{XY}$ 之间的内在概率联系,推动学习过程朝着正确的方向发展。
#### 3. 对偶监督学习算法
设 $D$ 表示训练对 $(x, y)$ 的集合,其中 $x \in X$ 且 $y \in Y$。$\theta_{XY}$ 表示从 $X$ 到 $Y$ 映射的原模型的参数,$\theta_{YX}$ 表示从 $Y$ 到 $X$ 映射的对偶模型的参数。
在传统的监督学习中,两个模型通过最小化训练数据上的经验风险来训练,例如深度学习中的负对数似然:
$\min_{\theta_{XY}} -\frac{1}{|D|} \sum_{(x,y) \in D} \log P(y|x; \theta_{XY})$
$\min_{\theta_{YX}} -\frac{1}{|D|} \sum_{(x,y) \in D} \log P(x|y; \theta_{YX})$
相应地,我们为原任务和对偶任务引入以下预测函数:
$f(x; \theta_{XY}) \triangleq \arg \max_{y' \in Y} P(y'|x; \theta_{XY})$
$g(y; \theta_{YX}) \triangleq \arg \max_{x' \in X} P(x'|y; \theta_{YX})$
显然,两个完美模型的参数 $\theta_{XY}$ 和 $\theta_{YX}$ 应满足等式 (7.1) 所描述的联合概率原理的约束。但在传统的监督学习中,原模型和对偶模型是独立分开训练的,训练时没有考虑联合概率的约束,因此不能保证学习到的模型能满足该约束。
为了解决这个问题,对偶监督学习联合训练这两个模型,并明确强化所有训练对 $(x, y)$ 的联合概率约束,从而得到以下多目标优化问题:
目标 1: $\min_{\theta_{XY}} \frac{1}{|D|} \sum_{(x,y) \in D} \ell_1(f(x; \theta_{XY}), y)$
目标 2: $\min_{\theta_{YX}} \frac{1}{|D|} \sum_{(x,y) \in D} \ell_2(g(y; \theta_{YX}), x)$
约束条件: $P(x)P(y|x; \theta_{XY}) = P(y)P(x|y; \theta_{YX}), \forall (x, y) \in D$ (7.2)
其中 $P(x)$ 和 $P(y)$ 是边缘分布,$\ell_1()$ 和 $\ell_2()$ 分别表示原任务和对偶任务的损失函数。在实际应用中,真实的边缘分布 $P(x)$ 和 $P(y)$ 通常不可用,因此可以使用经验边缘分布 $\hat{P}(x)$ 和 $\hat{P}(y)$ 来满足等式 (7.2) 中的约束。
为了解决上述优化问题,遵循约束优化的常见做法,引入拉格朗日乘子,将联合概率的等式约束转换为第三个目标。首先,将联合概率约束转换为以下正则化项:
$\ell_{dsl} = (\log \hat{P}(x) + \log P(y|x; \theta_{XY}) - \log \hat{P}(y) - \log P(x|y; \theta_{YX}))^2$ (7.3)
然后,通过最小化原始损失函数和上述正则化项的加权组合来训练两个任务的模型。具体算法如下:
```plaintext
Algorithm 1 Dual supervise learning algorithm
Require: : Marginal distributions ˆP (x) and ˆP(y); Lagrange parameters λXY and λY X; optimizers
Opt1 and Opt2;
repeat
Sample a minibatch of m pairs {(xj , yj )}m
j=1;
Calculate the gradients as follows:
Gf = ∇θXY (1/m)m
j=1
ℓ1(f (xj ; θXY ), yj)
```
0
0
复制全文
相关推荐









