基于概率原理的对偶监督学习：原理、算法与应用

### 基于概率原理的对偶监督学习：原理、算法与应用 #### 1. 概率视角下的结构对偶性结构对偶性可以从概率的角度进行解读。基于不同的概率方程和不同的设置，有几种利用结构对偶性的对偶学习算法，主要包括： - 对偶监督学习：利用联合概率约束来增强对标记数据的学习。 - 对偶推理：在推理中利用条件概率约束。 - 对偶半监督学习：利用边缘概率约束从无标记数据中学习。 #### 2. 对偶监督学习的联合概率原理在监督学习的场景中，我们考虑如何利用结构对偶性来增强对标记数据的学习。首先定义一些符号： - 原任务：将空间 $X$ 中的样本作为输入，映射到空间 $Y$。用概率语言表示，原任务学习一个由 $\theta_{XY}$ 参数化的条件分布 $P(y|x; \theta_{XY})$。 - 对偶任务：将空间 $Y$ 中的样本作为输入，映射到空间 $X$。对偶任务学习一个由 $\theta_{YX}$ 参数化的条件分布 $P(x|y; \theta_{YX})$，其中 $x \in X$ 且 $y \in Y$。对于任意的 $x \in X$ 和 $y \in Y$，联合概率 $P(x, y)$ 可以通过两种等价的方式计算：$P(x, y) = P(x)P(y|x) = P(y)P(x|y)$。如果两个模型 $\theta_{XY}$ 和 $\theta_{YX}$ 是完美的，它们参数化的条件分布应满足以下等式： $P(x)P(y|x; \theta_{XY}) = P(y)P(x|y; \theta_{YX}), \forall x \in X, y \in Y$ (7.1) 这个等式从概率的角度定义了原模型 $\theta_{XY}$ 和对偶模型 $\theta_{YX}$ 之间的关系，我们称之为联合概率原理。然而，如果两个模型（条件分布）通过最小化各自的损失函数分别进行训练（这是机器学习中的主要做法），并不能保证上述等式成立。对偶监督学习的基本思想是在等式 (7.1) 的约束下，通过最小化两个模型 $\theta_{XY}$ 和 $\theta_{YX}$ 的损失函数来联合训练这两个模型。这样做可以明确加强 $\theta_{YX}$ 和 $\theta_{XY}$ 之间的内在概率联系，推动学习过程朝着正确的方向发展。 #### 3. 对偶监督学习算法设 $D$ 表示训练对 $(x, y)$ 的集合，其中 $x \in X$ 且 $y \in Y$。$\theta_{XY}$ 表示从 $X$ 到 $Y$ 映射的原模型的参数，$\theta_{YX}$ 表示从 $Y$ 到 $X$ 映射的对偶模型的参数。在传统的监督学习中，两个模型通过最小化训练数据上的经验风险来训练，例如深度学习中的负对数似然： $\min_{\theta_{XY}} -\frac{1}{|D|} \sum_{(x,y) \in D} \log P(y|x; \theta_{XY})$ $\min_{\theta_{YX}} -\frac{1}{|D|} \sum_{(x,y) \in D} \log P(x|y; \theta_{YX})$ 相应地，我们为原任务和对偶任务引入以下预测函数： $f(x; \theta_{XY}) \triangleq \arg \max_{y' \in Y} P(y'|x; \theta_{XY})$ $g(y; \theta_{YX}) \triangleq \arg \max_{x' \in X} P(x'|y; \theta_{YX})$ 显然，两个完美模型的参数 $\theta_{XY}$ 和 $\theta_{YX}$ 应满足等式 (7.1) 所描述的联合概率原理的约束。但在传统的监督学习中，原模型和对偶模型是独立分开训练的，训练时没有考虑联合概率的约束，因此不能保证学习到的模型能满足该约束。为了解决这个问题，对偶监督学习联合训练这两个模型，并明确强化所有训练对 $(x, y)$ 的联合概率约束，从而得到以下多目标优化问题：目标 1: $\min_{\theta_{XY}} \frac{1}{|D|} \sum_{(x,y) \in D} \ell_1(f(x; \theta_{XY}), y)$ 目标 2: $\min_{\theta_{YX}} \frac{1}{|D|} \sum_{(x,y) \in D} \ell_2(g(y; \theta_{YX}), x)$ 约束条件: $P(x)P(y|x; \theta_{XY}) = P(y)P(x|y; \theta_{YX}), \forall (x, y) \in D$ (7.2) 其中 $P(x)$ 和 $P(y)$ 是边缘分布，$\ell_1()$ 和 $\ell_2()$ 分别表示原任务和对偶任务的损失函数。在实际应用中，真实的边缘分布 $P(x)$ 和 $P(y)$ 通常不可用，因此可以使用经验边缘分布 $\hat{P}(x)$ 和 $\hat{P}(y)$ 来满足等式 (7.2) 中的约束。为了解决上述优化问题，遵循约束优化的常见做法，引入拉格朗日乘子，将联合概率的等式约束转换为第三个目标。首先，将联合概率约束转换为以下正则化项： $\ell_{dsl} = (\log \hat{P}(x) + \log P(y|x; \theta_{XY}) - \log \hat{P}(y) - \log P(x|y; \theta_{YX}))^2$ (7.3) 然后，通过最小化原始损失函数和上述正则化项的加权组合来训练两个任务的模型。具体算法如下： ```plaintext Algorithm 1 Dual supervise learning algorithm Require: : Marginal distributions ˆP (x) and ˆP(y); Lagrange parameters λXY and λY X; optimizers Opt1 and Opt2; repeat Sample a minibatch of m pairs {(xj , yj )}m j=1; Calculate the gradients as follows: Gf = ∇θXY (1/m)m j=1 ℓ1(f (xj ; θXY ), yj) ```

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

基于概率原理的对偶监督学习：原理、算法与应用

相关推荐

专栏目录

基于概率原理的对偶监督学习：原理、算法与应用

相关推荐

李航《统计学习方法》笔记 --从原理到实现：基于R.pdf

2020-2021对偶学习论文笔记

模式识别与机器学习教学大纲.pdf

基于概率原理的对偶监督学习：理论与应用

概率原理下的对偶监督学习：理论与应用

深入理解对偶重建：从无监督到半监督学习

【支持向量机：终极入门秘籍】：彻底掌握算法原理与核心概念！

双半监督学习与对偶重建原理解析

机器学习 SVM算法原理

算法视角下的机器学习原理与应用

xv https___pdos.csail.mit.edu。 _ __xv6操作系统课程https___pdos.csa

专栏目录

最新推荐

磁电六铁氧体薄膜的ATLAD沉积及其特性

MATLAB目标对象管理与配置详解

克里金插值与图像处理：原理、方法及应用

微纳流体对流与传热应用研究

TypeScript高级特性与Cypress测试实践

自激感应发电机稳态分析与电压控制

凸轮与从动件机构的分析与应用

MATLAB数值技术：拟合、微分与积分

电力系统经济调度与动态经济调度研究

可再生能源技术中的Simulink建模与应用

xv https___pdos.csail.mit.edu。 _ xv6操作系统课程https_pdos.csa