NIPS-2001《Partially labeled classification with Markov random walks》


核心思想分析

论文的核心思想是利用马尔可夫随机游走Markov Random Walk来解决部分标记分类Partially Labeled Classification问题,即在少量标记样本和大量未标记样本的情况下进行分类。作者提出了一种基于随机游走的数据表示方法,该方法能够捕获数据的低维流形结构和密度分布,并结合少量标记样本进行分类任务。关键假设是:数据点的高密度区域或簇通常对应于单一类别,因此只需为每个簇提供少量标记即可推断整个数据集的标签。

具体而言:

  • 马尔可夫随机游走表示:通过在数据点上构建邻域图并定义随机转移概率,生成一种新的表示方式,基于随机游走路径的“体积”而非最短路径,增强了对噪声的鲁棒性。
  • 时间尺度参数:随机游走的时间步长 ttt 控制表示的分辨率,允许在不同粒度上探索数据结构。
  • 分类方法:提出两种参数估计方法(最大似然估计与EM算法、最大平均margin估计),并通过优化时间尺度 ttt 来正则化模型,适应不同的分类任务。
  • 自适应时间尺度:进一步提出为每个未标记点设置个体化的时间尺度,优化分类性能。

该方法特别适用于数据具有低维流形结构(如文本数据)的场景,相比传统分类器(如SVM)在少量标记样本下表现出显著优势。


目标函数分析

论文提出了两种主要的参数估计方法,每种方法对应一个目标函数:

  1. 最大似然估计(EM算法)

    目标函数是标记点的条件对数似然:
    ∑k=1Llog⁡P(y^k∣k)=∑k=1Llog⁡∑i=1NP(y^k∣i)P0∣t(i∣k), \sum_{k=1}^L \log P(\hat{y}_k \mid k) = \sum_{k=1}^L \log \sum_{i=1}^N P(\hat{y}_k \mid i) P_{0 \mid t}(i \mid k), k=1LlogP(y^kk)=k=1Llogi=1NP(y^ki)P0t(ik),
    其中:

    • LLL 为标记点数量,NNN 为总点数;
    • y^k\hat{y}_ky^k 为第 kkk 个点的真实标签;
    • P(y^k∣i)P(\hat{y}_k \mid i)P(y^ki) 为点 iii 属于标签 y^k\hat{y}_ky^k 的概率(待估计参数);
    • P0∣t(i∣k)P_{0 \mid t}(i \mid k)P0t(ik) 为随机游走 ttt 步后从点 iii 到点 kkk 的条件概率。

    此目标函数是关于 P(y∣i)P(y \mid i)P(yi) 的凹函数,具有唯一最大值,便于通过EM算法优化。

  2. 最大平均margin估计

    目标函数是最大化标记点上每类标签的平均margin:
    max⁡P(y∣i),γkd1C(C−1)∑k=1L∑d=1C1NC(k)γkd, \max_{P(y \mid i), \gamma_{kd}} \frac{1}{C(C-1)} \sum_{k=1}^L \sum_{d=1}^C \frac{1}{N_{C(k)}} \gamma_{kd}, P(yi),γkdmaxC(C1)1k=1Ld=1CNC(k)1γkd,
    受以下约束:
    Ppost(y=y^k∣k)≥Ppost(y=d∣k)+γkd,∀k∈1…L,∀d∈1…C, P_{\text{post}}(y=\hat{y}_k \mid k) \geq P_{\text{post}}(y=d \mid k) + \gamma_{kd}, \quad \forall k \in 1 \ldots L, \quad \forall d \in 1 \ldots C, Ppost(y=y^kk)Ppost(y=dk)+γkd,k1L,d1C,
    ∑c=1CP(y=c∣i)=1,0≤P(y∣i)≤1,∀i, \sum_{c=1}^C P(y=c \mid i) = 1, \quad 0 \leq P(y \mid i) \leq 1, \quad \forall i, c=1CP(y=ci)=1,0P(yi)1,i,
    其中:

    • γkd=Ppost(y=y^k∣k)−Ppost(y=d∣k)\gamma_{kd} = P_{\text{post}}(y=\hat{y}_k \mid k) - P_{\text{post}}(y=d \mid k)γkd=Ppost(y=y^kk)Ppost(y=dk) 为点 kkk 在类别 ddd 上的margin;
    • CCC 为类别数,NC(k)N_{C(k)}NC(k) 为与点 kkk 同类的标记点数;
    • Ppost(y∣k)=∑iP(y∣i)P0∣t(i∣k)P_{\text{post}}(y \mid k) = \sum_i P(y \mid i) P_{0 \mid t}(i \mid k)Ppost(yk)=iP(yi)P0t(ik) 为点 kkk 的后验概率。

    该目标函数是一个线性规划问题,解在参数空间的极点处,得到硬性参数(0或1)。


目标函数优化过程

  1. EM算法优化(最大似然估计)

    EM算法通过迭代进行优化:

    • E步:根据当前参数 P(y∣i)P(y \mid i)P(yi),计算软分配概率:
      P(i∣k,y^k)∝P(y^k∣i)P0∣t(i∣k). P(i \mid k, \hat{y}_k) \propto P(\hat{y}_k \mid i) P_{0 \mid t}(i \mid k). P(ik,y^k)P(y^ki)P0t(ik).
    • M步:更新参数:
      P(y∣i)←∑k:y^k=yP(i∣k,y^k)∑kP(i∣k,y^k). P(y \mid i) \leftarrow \frac{\sum_{k: \hat{y}_k=y} P(i \mid k, \hat{y}_k)}{\sum_k P(i \mid k, \hat{y}_k)}. P(yi)kP(ik,y^k)k:y^k=yP(ik,y^k).
      由于目标函数的凹性,EM算法保证收敛到全局最优。
  2. 最大平均margin优化

    该优化问题是一个线性规划问题,具有闭式解:
    P(y=ci∣i)={1if ci=arg⁡max⁡c1Nc∑k:y^k=cP0∣t(i∣k),0otherwise. P(y=c_i \mid i) = \begin{cases} 1 & \text{if } c_i = \arg\max_c \frac{1}{N_c} \sum_{k: \hat{y}_k=c} P_{0 \mid t}(i \mid k), \\ 0 & \text{otherwise}. \end{cases} P(y=cii)={10if ci=argmaxcNc1k:y^k=cP0t(ik),otherwise.
    后验概率可表示为:
    Ppost(y=c∣k)=∑i:P(y=c∣i)=1P0∣t(i∣k). P_{\text{post}}(y=c \mid k) = \sum_{i: P(y=c \mid i)=1} P_{0 \mid t}(i \mid k). Ppost(y=ck)=i:P(y=ci)=1P0t(ik).
    该闭式解避免了迭代优化,计算效率高,且便于通过交叉验证调整参数(如 ttt)。

  3. 自适应时间尺度优化

    为未标记点设置个体化时间尺度 tkt_ktk,目标是最大化标签与节点标识之间的互信息:
    {t1,…,tm}=arg⁡max⁡t1,…,tmI(y;k)=arg⁡max⁡t1,…,tm[H(y)−∑jP(k=j)H(y∣k=j)], \{t_1, \ldots, t_m\} = \arg\max_{t_1, \ldots, t_m} I(y; k) = \arg\max_{t_1, \ldots, t_m} \left[ H(y) - \sum_j P(k=j) H(y \mid k=j) \right], {t1,,tm}=argt1,,tmmaxI(y;k)=argt1,,tmmax[H(y)jP(k=j)H(yk=j)],
    其中:

    • P(y∣k)=1Zk∑i:y^i=yP0∣tk(i∣k)P(y \mid k) = \frac{1}{Z_k} \sum_{i: \hat{y}_i=y} P_{0 \mid t_k}(i \mid k)P(yk)=Zk1i:y^i=yP0tk(ik)ZkZ_kZk 为归一化常数;
    • P(y)=∑kP(k)P(y∣k)P(y) = \sum_k P(k) P(y \mid k)P(y)=kP(k)P(yk)P(k)P(k)P(k) 为均匀分布;
    • H(y)H(y)H(y)H(y∣k)H(y \mid k)H(yk) 分别为标签的边际熵和条件熵。

    优化通过轴平行搜索进行,初始化 tkt_ktk 为达到标记点的最小步数,迭代约5次收敛。


主要贡献点

  1. 新颖的表示方法:提出基于马尔可夫随机游走的数据表示,捕获低维流形结构和密度分布,优于传统的全局度量表示。
  2. 多类分类框架:开发了适用于多类分类的平均margin准则,并提供闭式解,提高计算效率。
  3. 时间尺度正则化:引入时间尺度参数 ttt 作为正则化手段,并提出基于margin的自适应选择方法。
  4. 自适应时间尺度:提出为每个未标记点设置个体化时间尺度,优化分类性能。
  5. 实验验证:在合成数据和文本分类任务(20 Newsgroups数据集)上验证了方法的有效性,特别是在少量标记样本下优于SVM。

实验结果

实验在合成数据(双月图案)和真实文本数据(20 Newsgroups的mac和windows子集)上进行:

  1. 合成数据实验

    • 数据:150个点(2标记,148未标记),呈双月图案,具有非欧几里得流形结构。
    • 设置:局部欧几里得度量,K=5K=5K=5σ=0.6\sigma=0.6σ=0.6,测试 t=3,10,30t=3, 10, 30t=3,10,30
    • 结果:t=30t=30t=30 时分类效果最佳,随机游走充分混合,沿流形结构正确分类;t=3t=3t=3 时部分点未连接到标记点,分类不完全。
  2. 文本分类实验

    • 数据:1919个文档(958 mac,961 windows),7511维,估计流形维数>7。
    • 设置:K=10K=10K=10σ=0.6\sigma=0.6σ=0.6t=8t=8t=8(基于平均margin选择),标记点数从2到128。
    • 结果:
      • 平均margin分类器表现最佳,特别是在少量标记点(2-16个)时,显著优于SVM。
      • 随着标记点增加,优势减小,但仍优于仅用标记数据的SVM。
      • 自适应时间尺度未显著提升性能,90%未标记点选择最小时间尺度(最多8步)。
      • 图2展示了不同 ttt 下的平均margin和分类准确率,验证了 t=8t=8t=8 的合理性。

算法实现过程详细解释

以下是论文提出的马尔可夫随机游走分类算法的详细实现步骤:

  1. 数据预处理

    • 输入:部分标记数据集 {(x1,y^1),…,(xL,y^L),xL+1,…,xN}\{(\mathbf{x}_1, \hat{y}_1), \ldots, (\mathbf{x}_L, \hat{y}_L), \mathbf{x}_{L+1}, \ldots, \mathbf{x}_N\}{(x1,y^1),,(xL,y^L),xL+1,,xN},其中 L≪NL \ll NLN
    • 选择局部度量 d(xi,xj)d(\mathbf{x}_i, \mathbf{x}_j)d(xi,xj)(如欧几里得距离),邻域大小 KKK,尺度参数 σ\sigmaσ
  2. 构建邻域图

    • 构造对称的 KKK 最近邻图 GGG,边权重为:
      Wij=exp⁡(−d(xi,xj)/σ), W_{ij} = \exp\left(-d(\mathbf{x}_i, \mathbf{x}_j) / \sigma\right), Wij=exp(d(xi,xj)/σ),
      i,ji, ji,j 非邻居则 Wij=0W_{ij} = 0Wij=0,自环 Wii=1W_{ii} = 1Wii=1
  3. 计算转移概率

    • 单步转移概率:
      pik=Wik∑jWij, p_{ik} = \frac{W_{ik}}{\sum_j W_{ij}}, pik=jWijWik,
      组成行随机矩阵 A\mathbf{A}A,其中 Aik=pik\mathbf{A}_{ik} = p_{ik}Aik=pik
    • ttt 步转移概率:
      Pt∣0(k∣i)=[At]ik. P_{t \mid 0}(k \mid i) = [\mathbf{A}^t]_{ik}. Pt0(ki)=[At]ik.
  4. 计算表示向量

    • 假设随机游走起点均匀分布 P(i)=1/NP(i) = 1/NP(i)=1/N,计算条件概率:
      P0∣t(i∣k), P_{0 \mid t}(i \mid k), P0t(ik),
      每个点 kkk 的表示为向量 {P0∣t(i∣k)}i=1N\{P_{0 \mid t}(i \mid k)\}_{i=1}^N{P0t(ik)}i=1N
  5. 参数估计

    • 最大似然估计(EM算法)
      • 初始化 P(y∣i)P(y \mid i)P(yi)
      • 迭代:
        • E步:计算 P(i∣k,y^k)∝P(y^k∣i)P0∣t(i∣k)P(i \mid k, \hat{y}_k) \propto P(\hat{y}_k \mid i) P_{0 \mid t}(i \mid k)P(ik,y^k)P(y^ki)P0t(ik)
        • M步:更新 P(y∣i)←∑k:y^k=yP(i∣k,y^k)∑kP(i∣k,y^k)P(y \mid i) \leftarrow \frac{\sum_{k: \hat{y}_k=y} P(i \mid k, \hat{y}_k)}{\sum_k P(i \mid k, \hat{y}_k)}P(yi)kP(ik,y^k)k:y^k=yP(ik,y^k)
      • 直到收敛。
    • 最大平均margin估计
      • 直接计算闭式解:
        P(y=ci∣i)={1if ci=arg⁡max⁡c1Nc∑k:y^k=cP0∣t(i∣k),0otherwise. P(y=c_i \mid i) = \begin{cases} 1 & \text{if } c_i = \arg\max_c \frac{1}{N_c} \sum_{k: \hat{y}_k=c} P_{0 \mid t}(i \mid k), \\ 0 & \text{otherwise}. \end{cases} P(y=cii)={10if ci=argmaxcNc1k:y^k=cP0t(ik),otherwise.
  6. 时间尺度选择

    • 全局时间尺度
      • 计算每个类的平均margin:
        1Nc∑k:class(k)=c∑dγkd, \frac{1}{N_c} \sum_{k: \text{class}(k)=c} \sum_d \gamma_{kd}, Nc1k:class(k)=cdγkd,
        选择使两类margin同时较大的 ttt(如 t=8t=8t=8)。
    • 自适应时间尺度
      • 初始化 tkt_ktk 为达到标记点的最小步数。
      • 优化互信息:
        I(y;k)=H(y)−∑jP(k=j)H(y∣k=j), I(y; k) = H(y) - \sum_j P(k=j) H(y \mid k=j), I(y;k)=H(y)jP(k=j)H(yk=j),
        通过轴平行搜索调整 tkt_ktk,迭代约5次。
  7. 分类

    • 计算后验概率:
      Ppost(y∣k)=∑iP(y∣i)P0∣t(i∣k). P_{\text{post}}(y \mid k) = \sum_i P(y \mid i) P_{0 \mid t}(i \mid k). Ppost(yk)=iP(yi)P0t(ik).
    • 分类结果:
      ck=arg⁡max⁡cPpost(y=c∣k). c_k = \arg\max_c P_{\text{post}}(y=c \mid k). ck=argcmaxPpost(y=ck).
  8. 评估

    • 在测试集上计算分类准确率,比较不同 ttt 和方法(如EM、margin、SVM)。

总结

该论文提出了一种创新的基于马尔可夫随机游走的分类方法,结合少量标记样本和未标记数据的流形结构,通过时间尺度正则化和自适应调整实现了高效分类。最大平均margin方法的闭式解和实验结果表明其在少量标记样本下的优越性,尤其适用于文本分类等高维数据场景。算法实现清晰,参数选择具有理论依据,提供了机器学习领域半监督学习的宝贵思路。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Christo3

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值