NIPS-2001《Partially labeled classification with Markov random walks》

最新推荐文章于 2025-08-21 16:36:04 发布

Christo3

最新推荐文章于 2025-08-21 16:36:04 发布

阅读量875

点赞数 22

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习人工智能数据挖掘算法

本文链接：https://blog.csdn.net/weixin_41552975/article/details/148879621

机器学习专栏收录该内容

143 篇文章

订阅专栏

核心思想分析

论文的核心思想是利用马尔可夫随机游走Markov Random Walk来解决部分标记分类Partially Labeled Classification问题，即在少量标记样本和大量未标记样本的情况下进行分类。作者提出了一种基于随机游走的数据表示方法，该方法能够捕获数据的低维流形结构和密度分布，并结合少量标记样本进行分类任务。关键假设是：数据点的高密度区域或簇通常对应于单一类别，因此只需为每个簇提供少量标记即可推断整个数据集的标签。

具体而言：

马尔可夫随机游走表示：通过在数据点上构建邻域图并定义随机转移概率，生成一种新的表示方式，基于随机游走路径的“体积”而非最短路径，增强了对噪声的鲁棒性。
时间尺度参数：随机游走的时间步长 $t$ 控制表示的分辨率，允许在不同粒度上探索数据结构。
分类方法：提出两种参数估计方法（最大似然估计与EM算法、最大平均margin估计），并通过优化时间尺度 $t$ 来正则化模型，适应不同的分类任务。
自适应时间尺度：进一步提出为每个未标记点设置个体化的时间尺度，优化分类性能。

该方法特别适用于数据具有低维流形结构（如文本数据）的场景，相比传统分类器（如SVM）在少量标记样本下表现出显著优势。

目标函数分析

论文提出了两种主要的参数估计方法，每种方法对应一个目标函数：

最大似然估计（EM算法）

目标函数是标记点的条件对数似然：
$∑k=1Llog⁡P(y^k∣k)=∑k=1Llog⁡∑i=1NP(y^k∣i)P0∣t(i∣k), \sum_{k=1}^L \log P(\hat{y}_k \mid k) = \sum_{k=1}^L \log \sum_{i=1}^N P(\hat{y}_k \mid i) P_{0 \mid t}(i \mid k),$
其中：
- $L$ 为标记点数量， $N$ 为总点数；
- $y^k\hat{y}_k$ 为第 $k$ 个点的真实标签；
- $P(y^k∣i)P(\hat{y}_k \mid i)$ 为点 $i$ 属于标签 $y^k\hat{y}_k$ 的概率（待估计参数）；
- $P0∣t(i∣k)P_{0 \mid t}(i \mid k)$ 为随机游走 $t$ 步后从点 $i$ 到点 $k$ 的条件概率。
此目标函数是关于 $\mid i)$ 的凹函数，具有唯一最大值，便于通过EM算法优化。
最大平均margin估计

目标函数是最大化标记点上每类标签的平均margin：
$\max_{P(y \mid i), \gamma_{kd}} \frac{1}{C(C-1)} \sum_{k=1}^L \sum_{d=1}^C \frac{1}{N_{C(k)}} \gamma_{kd},$
受以下约束：
$Ppost(y=y^k∣k)≥Ppost(y=d∣k)+γkd,∀k∈1…L,∀d∈1…C, P_{\text{post}}(y=\hat{y}_k \mid k) \geq P_{\text{post}}(y=d \mid k) + \gamma_{kd}, \quad \forall k \in 1 \ldots L, \quad \forall d \in 1 \ldots C,$
$\sum_{c=1}^C P(y=c \mid i) = 1, \quad 0 \leq P(y \mid i) \leq 1, \quad \forall i,$
其中：
- $γkd=Ppost(y=y^k∣k)−Ppost(y=d∣k)\gamma_{kd} = P_{\text{post}}(y=\hat{y}_k \mid k) - P_{\text{post}}(y=d \mid k)$ 为点 $k$ 在类别 $d$ 上的margin；
- $C$ 为类别数， $N_{C(k)}$ 为与点 $k$ 同类的标记点数；
- $Ppost(y∣k)=∑iP(y∣i)P0∣t(i∣k)P_{\text{post}}(y \mid k) = \sum_i P(y \mid i) P_{0 \mid t}(i \mid k)$ 为点 $k$ 的后验概率。
该目标函数是一个线性规划问题，解在参数空间的极点处，得到硬性参数（0或1）。

目标函数优化过程

EM算法优化（最大似然估计）

EM算法通过迭代进行优化：
- E步：根据当前参数 $\mid i)$ ，计算软分配概率：
  $P(i∣k,y^k)∝P(y^k∣i)P0∣t(i∣k). P(i \mid k, \hat{y}_k) \propto P(\hat{y}_k \mid i) P_{0 \mid t}(i \mid k).$
- M步：更新参数：
  $P(y∣i)←∑k:y^k=yP(i∣k,y^k)∑kP(i∣k,y^k). P(y \mid i) \leftarrow \frac{\sum_{k: \hat{y}_k=y} P(i \mid k, \hat{y}_k)}{\sum_k P(i \mid k, \hat{y}_k)}.$
  由于目标函数的凹性，EM算法保证收敛到全局最优。
最大平均margin优化

该优化问题是一个线性规划问题，具有闭式解：
$ci=arg⁡max⁡c1Nc∑k:y^k=cP0∣t(i∣k),0otherwise. P(y=c_i \mid i) = \begin{cases} 1 & \text{if } c_i = \arg\max_c \frac{1}{N_c} \sum_{k: \hat{y}_k=c} P_{0 \mid t}(i \mid k), \\ 0 & \text{otherwise}. \end{cases}$
后验概率可表示为：
$P_{\text{post}}(y=c \mid k) = \sum_{i: P(y=c \mid i)=1} P_{0 \mid t}(i \mid k).$
该闭式解避免了迭代优化，计算效率高，且便于通过交叉验证调整参数（如 $t$ ）。
自适应时间尺度优化

为未标记点设置个体化时间尺度 $t_k$ ，目标是最大化标签与节点标识之间的互信息：
$\{t_1, \ldots, t_m\} = \arg\max_{t_1, \ldots, t_m} I(y; k) = \arg\max_{t_1, \ldots, t_m} \left[ H(y) - \sum_j P(k=j) H(y \mid k=j) \right],$
其中：
- $P(y∣k)=1Zk∑i:y^i=yP0∣tk(i∣k)P(y \mid k) = \frac{1}{Z_k} \sum_{i: \hat{y}_i=y} P_{0 \mid t_k}(i \mid k)$ ， $Z_k$ 为归一化常数；
- $\sum_k P(k) P(y \mid k)$ ， $P (k)$ 为均匀分布；
- $H (y)$ 和 $\mid k)$ 分别为标签的边际熵和条件熵。
优化通过轴平行搜索进行，初始化 $t_k$ 为达到标记点的最小步数，迭代约5次收敛。

主要贡献点

新颖的表示方法：提出基于马尔可夫随机游走的数据表示，捕获低维流形结构和密度分布，优于传统的全局度量表示。
多类分类框架：开发了适用于多类分类的平均margin准则，并提供闭式解，提高计算效率。
时间尺度正则化：引入时间尺度参数 $t$ 作为正则化手段，并提出基于margin的自适应选择方法。
自适应时间尺度：提出为每个未标记点设置个体化时间尺度，优化分类性能。
实验验证：在合成数据和文本分类任务（20 Newsgroups数据集）上验证了方法的有效性，特别是在少量标记样本下优于SVM。

实验结果

实验在合成数据（双月图案）和真实文本数据（20 Newsgroups的mac和windows子集）上进行：

合成数据实验
- 数据：150个点（2标记，148未标记），呈双月图案，具有非欧几里得流形结构。
- 设置：局部欧几里得度量， $K = 5$ ， $σ=0.6\sigma=0.6$ ，测试 $t = 3, 10, 30$ 。
- 结果： $t = 30$ 时分类效果最佳，随机游走充分混合，沿流形结构正确分类； $t = 3$ 时部分点未连接到标记点，分类不完全。
文本分类实验
- 数据：1919个文档（958 mac，961 windows），7511维，估计流形维数>7。
- 设置： $K = 10$ ， $σ=0.6\sigma=0.6$ ， $t = 8$ （基于平均margin选择），标记点数从2到128。
- 结果：
  - 平均margin分类器表现最佳，特别是在少量标记点（2-16个）时，显著优于SVM。
  - 随着标记点增加，优势减小，但仍优于仅用标记数据的SVM。
  - 自适应时间尺度未显著提升性能，90%未标记点选择最小时间尺度（最多8步）。
  - 图2展示了不同 $t$ 下的平均margin和分类准确率，验证了 $t = 8$ 的合理性。

算法实现过程详细解释

以下是论文提出的马尔可夫随机游走分类算法的详细实现步骤：

数据预处理
- 输入：部分标记数据集 ${(x1,y^1),…,(xL,y^L),xL+1,…,xN}\{(\mathbf{x}_1, \hat{y}_1), \ldots, (\mathbf{x}_L, \hat{y}_L), \mathbf{x}_{L+1}, \ldots, \mathbf{x}_N\}$ ，其中 $\ll N$ 。
- 选择局部度量 $d(xi,xj)d(\mathbf{x}_i, \mathbf{x}_j)$ （如欧几里得距离），邻域大小 $K$ ，尺度参数 $σ\sigma$ 。
构建邻域图
- 构造对称的 $K$ 最近邻图 $G$ ，边权重为：
  $W_{ij} = \exp\left(-d(\mathbf{x}_i, \mathbf{x}_j) / \sigma\right),$
  若 $i, j$ 非邻居则 $W_{ij} = 0$ ，自环 $W_{ii} = 1$ 。
计算转移概率
- 单步转移概率：
  $p_{ik} = \frac{W_{ik}}{\sum_j W_{ij}},$
  组成行随机矩阵 $A\mathbf{A}$ ，其中 $Aik=pik\mathbf{A}_{ik} = p_{ik}$ 。
- $t$ 步转移概率：
  $P_{t \mid 0}(k \mid i) = [\mathbf{A}^t]_{ik}.$
计算表示向量
- 假设随机游走起点均匀分布 $P (i) = 1/ N$ ，计算条件概率：
  $P_{0 \mid t}(i \mid k),$
  每个点 $k$ 的表示为向量 ${P0∣t(i∣k)}i=1N\{P_{0 \mid t}(i \mid k)\}_{i=1}^N$ 。
参数估计
- 最大似然估计（EM算法）：
  - 初始化 $\mid i)$ 。
  - 迭代：
    - E步：计算 $P(i∣k,y^k)∝P(y^k∣i)P0∣t(i∣k)P(i \mid k, \hat{y}_k) \propto P(\hat{y}_k \mid i) P_{0 \mid t}(i \mid k)$ 。
    - M步：更新 $P(y∣i)←∑k:y^k=yP(i∣k,y^k)∑kP(i∣k,y^k)P(y \mid i) \leftarrow \frac{\sum_{k: \hat{y}_k=y} P(i \mid k, \hat{y}_k)}{\sum_k P(i \mid k, \hat{y}_k)}$ 。
  - 直到收敛。
- 最大平均margin估计：
  - 直接计算闭式解：
    $ci=arg⁡max⁡c1Nc∑k:y^k=cP0∣t(i∣k),0otherwise. P(y=c_i \mid i) = \begin{cases} 1 & \text{if } c_i = \arg\max_c \frac{1}{N_c} \sum_{k: \hat{y}_k=c} P_{0 \mid t}(i \mid k), \\ 0 & \text{otherwise}. \end{cases}$
时间尺度选择
- 全局时间尺度：
  - 计算每个类的平均margin：
    $\frac{1}{N_c} \sum_{k: \text{class}(k)=c} \sum_d \gamma_{kd},$
    选择使两类margin同时较大的 $t$ （如 $t = 8$ ）。
- 自适应时间尺度：
  - 初始化 $t_k$ 为达到标记点的最小步数。
  - 优化互信息：
    $\sum_j P(k=j) H(y \mid k=j),$
    通过轴平行搜索调整 $t_k$ ，迭代约5次。
分类
- 计算后验概率：
  $P_{\text{post}}(y \mid k) = \sum_i P(y \mid i) P_{0 \mid t}(i \mid k).$
- 分类结果：
  $c_k = \arg\max_c P_{\text{post}}(y=c \mid k).$
评估
- 在测试集上计算分类准确率，比较不同 $t$ 和方法（如EM、margin、SVM）。

总结

该论文提出了一种创新的基于马尔可夫随机游走的分类方法，结合少量标记样本和未标记数据的流形结构，通过时间尺度正则化和自适应调整实现了高效分类。最大平均margin方法的闭式解和实验结果表明其在少量标记样本下的优越性，尤其适用于文本分类等高维数据场景。算法实现清晰，参数选择具有理论依据，提供了机器学习领域半监督学习的宝贵思路。