核心思想分析
论文的核心思想是利用马尔可夫随机游走Markov Random Walk来解决部分标记分类Partially Labeled Classification问题,即在少量标记样本和大量未标记样本的情况下进行分类。作者提出了一种基于随机游走的数据表示方法,该方法能够捕获数据的低维流形结构和密度分布,并结合少量标记样本进行分类任务。关键假设是:数据点的高密度区域或簇通常对应于单一类别,因此只需为每个簇提供少量标记即可推断整个数据集的标签。
具体而言:
- 马尔可夫随机游走表示:通过在数据点上构建邻域图并定义随机转移概率,生成一种新的表示方式,基于随机游走路径的“体积”而非最短路径,增强了对噪声的鲁棒性。
- 时间尺度参数:随机游走的时间步长 ttt 控制表示的分辨率,允许在不同粒度上探索数据结构。
- 分类方法:提出两种参数估计方法(最大似然估计与EM算法、最大平均margin估计),并通过优化时间尺度 ttt 来正则化模型,适应不同的分类任务。
- 自适应时间尺度:进一步提出为每个未标记点设置个体化的时间尺度,优化分类性能。
该方法特别适用于数据具有低维流形结构(如文本数据)的场景,相比传统分类器(如SVM)在少量标记样本下表现出显著优势。
目标函数分析
论文提出了两种主要的参数估计方法,每种方法对应一个目标函数:
-
最大似然估计(EM算法)
目标函数是标记点的条件对数似然:
∑k=1LlogP(y^k∣k)=∑k=1Llog∑i=1NP(y^k∣i)P0∣t(i∣k), \sum_{k=1}^L \log P(\hat{y}_k \mid k) = \sum_{k=1}^L \log \sum_{i=1}^N P(\hat{y}_k \mid i) P_{0 \mid t}(i \mid k), k=1∑LlogP(y^k∣k)=k=1∑Llogi=1∑NP(y^k∣i)P0∣t(i∣k),
其中:- LLL 为标记点数量,NNN 为总点数;
- y^k\hat{y}_ky^k 为第 kkk 个点的真实标签;
- P(y^k∣i)P(\hat{y}_k \mid i)P(y^k∣i) 为点 iii 属于标签 y^k\hat{y}_ky^k 的概率(待估计参数);
- P0∣t(i∣k)P_{0 \mid t}(i \mid k)P0∣t(i∣k) 为随机游走 ttt 步后从点 iii 到点 kkk 的条件概率。
此目标函数是关于 P(y∣i)P(y \mid i)P(y∣i) 的凹函数,具有唯一最大值,便于通过EM算法优化。
-
最大平均margin估计
目标函数是最大化标记点上每类标签的平均margin:
maxP(y∣i),γkd1C(C−1)∑k=1L∑d=1C1NC(k)γkd, \max_{P(y \mid i), \gamma_{kd}} \frac{1}{C(C-1)} \sum_{k=1}^L \sum_{d=1}^C \frac{1}{N_{C(k)}} \gamma_{kd}, P(y∣i),γkdmaxC(C−1)1k=1∑Ld=1∑CNC(k)1γkd,
受以下约束:
Ppost(y=y^k∣k)≥Ppost(y=d∣k)+γkd,∀k∈1…L,∀d∈1…C, P_{\text{post}}(y=\hat{y}_k \mid k) \geq P_{\text{post}}(y=d \mid k) + \gamma_{kd}, \quad \forall k \in 1 \ldots L, \quad \forall d \in 1 \ldots C, Ppost(y=y^k∣k)≥Ppost(y=d∣k)+γkd,∀k∈1…L,∀d∈1…C,
∑c=1CP(y=c∣i)=1,0≤P(y∣i)≤1,∀i, \sum_{c=1}^C P(y=c \mid i) = 1, \quad 0 \leq P(y \mid i) \leq 1, \quad \forall i, c=1∑CP(y=c∣i)=1,0≤P(y∣i)≤1,∀i,
其中:- γkd=Ppost(y=y^k∣k)−Ppost(y=d∣k)\gamma_{kd} = P_{\text{post}}(y=\hat{y}_k \mid k) - P_{\text{post}}(y=d \mid k)γkd=Ppost(y=y^k∣k)−Ppost(y=d∣k) 为点 kkk 在类别 ddd 上的margin;
- CCC 为类别数,NC(k)N_{C(k)}NC(k) 为与点 kkk 同类的标记点数;
- Ppost(y∣k)=∑iP(y∣i)P0∣t(i∣k)P_{\text{post}}(y \mid k) = \sum_i P(y \mid i) P_{0 \mid t}(i \mid k)Ppost(y∣k)=∑iP(y∣i)P0∣t(i∣k) 为点 kkk 的后验概率。
该目标函数是一个线性规划问题,解在参数空间的极点处,得到硬性参数(0或1)。
目标函数优化过程
-
EM算法优化(最大似然估计)
EM算法通过迭代进行优化:
- E步:根据当前参数 P(y∣i)P(y \mid i)P(y∣i),计算软分配概率:
P(i∣k,y^k)∝P(y^k∣i)P0∣t(i∣k). P(i \mid k, \hat{y}_k) \propto P(\hat{y}_k \mid i) P_{0 \mid t}(i \mid k). P(i∣k,y^k)∝P(y^k∣i)P0∣t(i∣k). - M步:更新参数:
P(y∣i)←∑k:y^k=yP(i∣k,y^k)∑kP(i∣k,y^k). P(y \mid i) \leftarrow \frac{\sum_{k: \hat{y}_k=y} P(i \mid k, \hat{y}_k)}{\sum_k P(i \mid k, \hat{y}_k)}. P(y∣i)←∑kP(i∣k,y^k)∑k:y^k=yP(i∣k,y^k).
由于目标函数的凹性,EM算法保证收敛到全局最优。
- E步:根据当前参数 P(y∣i)P(y \mid i)P(y∣i),计算软分配概率:
-
最大平均margin优化
该优化问题是一个线性规划问题,具有闭式解:
P(y=ci∣i)={1if ci=argmaxc1Nc∑k:y^k=cP0∣t(i∣k),0otherwise. P(y=c_i \mid i) = \begin{cases} 1 & \text{if } c_i = \arg\max_c \frac{1}{N_c} \sum_{k: \hat{y}_k=c} P_{0 \mid t}(i \mid k), \\ 0 & \text{otherwise}. \end{cases} P(y=ci∣i)={10if ci=argmaxcNc1∑k:y^k=cP0∣t(i∣k),otherwise.
后验概率可表示为:
Ppost(y=c∣k)=∑i:P(y=c∣i)=1P0∣t(i∣k). P_{\text{post}}(y=c \mid k) = \sum_{i: P(y=c \mid i)=1} P_{0 \mid t}(i \mid k). Ppost(y=c∣k)=i:P(y=c∣i)=1∑P0∣t(i∣k).
该闭式解避免了迭代优化,计算效率高,且便于通过交叉验证调整参数(如 ttt)。 -
自适应时间尺度优化
为未标记点设置个体化时间尺度 tkt_ktk,目标是最大化标签与节点标识之间的互信息:
{t1,…,tm}=argmaxt1,…,tmI(y;k)=argmaxt1,…,tm[H(y)−∑jP(k=j)H(y∣k=j)], \{t_1, \ldots, t_m\} = \arg\max_{t_1, \ldots, t_m} I(y; k) = \arg\max_{t_1, \ldots, t_m} \left[ H(y) - \sum_j P(k=j) H(y \mid k=j) \right], {t1,…,tm}=argt1,…,tmmaxI(y;k)=argt1,…,tmmax[H(y)−j∑P(k=j)H(y∣k=j)],
其中:- P(y∣k)=1Zk∑i:y^i=yP0∣tk(i∣k)P(y \mid k) = \frac{1}{Z_k} \sum_{i: \hat{y}_i=y} P_{0 \mid t_k}(i \mid k)P(y∣k)=Zk1∑i:y^i=yP0∣tk(i∣k),ZkZ_kZk 为归一化常数;
- P(y)=∑kP(k)P(y∣k)P(y) = \sum_k P(k) P(y \mid k)P(y)=∑kP(k)P(y∣k),P(k)P(k)P(k) 为均匀分布;
- H(y)H(y)H(y) 和 H(y∣k)H(y \mid k)H(y∣k) 分别为标签的边际熵和条件熵。
优化通过轴平行搜索进行,初始化 tkt_ktk 为达到标记点的最小步数,迭代约5次收敛。
主要贡献点
- 新颖的表示方法:提出基于马尔可夫随机游走的数据表示,捕获低维流形结构和密度分布,优于传统的全局度量表示。
- 多类分类框架:开发了适用于多类分类的平均margin准则,并提供闭式解,提高计算效率。
- 时间尺度正则化:引入时间尺度参数 ttt 作为正则化手段,并提出基于margin的自适应选择方法。
- 自适应时间尺度:提出为每个未标记点设置个体化时间尺度,优化分类性能。
- 实验验证:在合成数据和文本分类任务(20 Newsgroups数据集)上验证了方法的有效性,特别是在少量标记样本下优于SVM。
实验结果
实验在合成数据(双月图案)和真实文本数据(20 Newsgroups的mac和windows子集)上进行:
-
合成数据实验
- 数据:150个点(2标记,148未标记),呈双月图案,具有非欧几里得流形结构。
- 设置:局部欧几里得度量,K=5K=5K=5,σ=0.6\sigma=0.6σ=0.6,测试 t=3,10,30t=3, 10, 30t=3,10,30。
- 结果:t=30t=30t=30 时分类效果最佳,随机游走充分混合,沿流形结构正确分类;t=3t=3t=3 时部分点未连接到标记点,分类不完全。
-
文本分类实验
- 数据:1919个文档(958 mac,961 windows),7511维,估计流形维数>7。
- 设置:K=10K=10K=10,σ=0.6\sigma=0.6σ=0.6,t=8t=8t=8(基于平均margin选择),标记点数从2到128。
- 结果:
- 平均margin分类器表现最佳,特别是在少量标记点(2-16个)时,显著优于SVM。
- 随着标记点增加,优势减小,但仍优于仅用标记数据的SVM。
- 自适应时间尺度未显著提升性能,90%未标记点选择最小时间尺度(最多8步)。
- 图2展示了不同 ttt 下的平均margin和分类准确率,验证了 t=8t=8t=8 的合理性。
算法实现过程详细解释
以下是论文提出的马尔可夫随机游走分类算法的详细实现步骤:
-
数据预处理
- 输入:部分标记数据集 {(x1,y^1),…,(xL,y^L),xL+1,…,xN}\{(\mathbf{x}_1, \hat{y}_1), \ldots, (\mathbf{x}_L, \hat{y}_L), \mathbf{x}_{L+1}, \ldots, \mathbf{x}_N\}{(x1,y^1),…,(xL,y^L),xL+1,…,xN},其中 L≪NL \ll NL≪N。
- 选择局部度量 d(xi,xj)d(\mathbf{x}_i, \mathbf{x}_j)d(xi,xj)(如欧几里得距离),邻域大小 KKK,尺度参数 σ\sigmaσ。
-
构建邻域图
- 构造对称的 KKK 最近邻图 GGG,边权重为:
Wij=exp(−d(xi,xj)/σ), W_{ij} = \exp\left(-d(\mathbf{x}_i, \mathbf{x}_j) / \sigma\right), Wij=exp(−d(xi,xj)/σ),
若 i,ji, ji,j 非邻居则 Wij=0W_{ij} = 0Wij=0,自环 Wii=1W_{ii} = 1Wii=1。
- 构造对称的 KKK 最近邻图 GGG,边权重为:
-
计算转移概率
- 单步转移概率:
pik=Wik∑jWij, p_{ik} = \frac{W_{ik}}{\sum_j W_{ij}}, pik=∑jWijWik,
组成行随机矩阵 A\mathbf{A}A,其中 Aik=pik\mathbf{A}_{ik} = p_{ik}Aik=pik。 - ttt 步转移概率:
Pt∣0(k∣i)=[At]ik. P_{t \mid 0}(k \mid i) = [\mathbf{A}^t]_{ik}. Pt∣0(k∣i)=[At]ik.
- 单步转移概率:
-
计算表示向量
- 假设随机游走起点均匀分布 P(i)=1/NP(i) = 1/NP(i)=1/N,计算条件概率:
P0∣t(i∣k), P_{0 \mid t}(i \mid k), P0∣t(i∣k),
每个点 kkk 的表示为向量 {P0∣t(i∣k)}i=1N\{P_{0 \mid t}(i \mid k)\}_{i=1}^N{P0∣t(i∣k)}i=1N。
- 假设随机游走起点均匀分布 P(i)=1/NP(i) = 1/NP(i)=1/N,计算条件概率:
-
参数估计
- 最大似然估计(EM算法):
- 初始化 P(y∣i)P(y \mid i)P(y∣i)。
- 迭代:
- E步:计算 P(i∣k,y^k)∝P(y^k∣i)P0∣t(i∣k)P(i \mid k, \hat{y}_k) \propto P(\hat{y}_k \mid i) P_{0 \mid t}(i \mid k)P(i∣k,y^k)∝P(y^k∣i)P0∣t(i∣k)。
- M步:更新 P(y∣i)←∑k:y^k=yP(i∣k,y^k)∑kP(i∣k,y^k)P(y \mid i) \leftarrow \frac{\sum_{k: \hat{y}_k=y} P(i \mid k, \hat{y}_k)}{\sum_k P(i \mid k, \hat{y}_k)}P(y∣i)←∑kP(i∣k,y^k)∑k:y^k=yP(i∣k,y^k)。
- 直到收敛。
- 最大平均margin估计:
- 直接计算闭式解:
P(y=ci∣i)={1if ci=argmaxc1Nc∑k:y^k=cP0∣t(i∣k),0otherwise. P(y=c_i \mid i) = \begin{cases} 1 & \text{if } c_i = \arg\max_c \frac{1}{N_c} \sum_{k: \hat{y}_k=c} P_{0 \mid t}(i \mid k), \\ 0 & \text{otherwise}. \end{cases} P(y=ci∣i)={10if ci=argmaxcNc1∑k:y^k=cP0∣t(i∣k),otherwise.
- 直接计算闭式解:
- 最大似然估计(EM算法):
-
时间尺度选择
- 全局时间尺度:
- 计算每个类的平均margin:
1Nc∑k:class(k)=c∑dγkd, \frac{1}{N_c} \sum_{k: \text{class}(k)=c} \sum_d \gamma_{kd}, Nc1k:class(k)=c∑d∑γkd,
选择使两类margin同时较大的 ttt(如 t=8t=8t=8)。
- 计算每个类的平均margin:
- 自适应时间尺度:
- 初始化 tkt_ktk 为达到标记点的最小步数。
- 优化互信息:
I(y;k)=H(y)−∑jP(k=j)H(y∣k=j), I(y; k) = H(y) - \sum_j P(k=j) H(y \mid k=j), I(y;k)=H(y)−j∑P(k=j)H(y∣k=j),
通过轴平行搜索调整 tkt_ktk,迭代约5次。
- 全局时间尺度:
-
分类
- 计算后验概率:
Ppost(y∣k)=∑iP(y∣i)P0∣t(i∣k). P_{\text{post}}(y \mid k) = \sum_i P(y \mid i) P_{0 \mid t}(i \mid k). Ppost(y∣k)=i∑P(y∣i)P0∣t(i∣k). - 分类结果:
ck=argmaxcPpost(y=c∣k). c_k = \arg\max_c P_{\text{post}}(y=c \mid k). ck=argcmaxPpost(y=c∣k).
- 计算后验概率:
-
评估
- 在测试集上计算分类准确率,比较不同 ttt 和方法(如EM、margin、SVM)。
总结
该论文提出了一种创新的基于马尔可夫随机游走的分类方法,结合少量标记样本和未标记数据的流形结构,通过时间尺度正则化和自适应调整实现了高效分类。最大平均margin方法的闭式解和实验结果表明其在少量标记样本下的优越性,尤其适用于文本分类等高维数据场景。算法实现清晰,参数选择具有理论依据,提供了机器学习领域半监督学习的宝贵思路。