TKDE-2025《Graph-Based Clustering: High-Order Bipartite Graph for Proximity Learning》


论文分析

核心思想

论文提出了一种基于高阶二部图(High-Order Bipartite Graph, HBSGL)的聚类方法,旨在解决传统结构化邻近矩阵学习中由于第一阶邻近矩阵缺少“必须连接”(must-links)信息导致的聚类性能受限问题。其核心思想包括:

  1. 引入高阶邻近信息:传统第一阶邻近矩阵由于数据复杂性和噪声干扰,常常缺少与真实邻近矩阵(groundtruth)相比的必须连接信息。高阶邻近矩阵通过“邻居的邻居成为邻居”的属性,能够补充这些缺失的连接信息,从而更全面地捕捉数据结构。

  2. 二部图降低计算复杂度:直接计算高阶邻近矩阵的复杂度为O(n3)O(n^3)O(n3)nnn为样本数),对大规模数据集不友好。论文通过引入二部图结构,将样本与少量锚点(anchor points)关联,构造高阶二部图邻近矩阵,大幅降低计算复杂度至近似线性O(n)O(n)O(n)

  3. 自适应融合框架:提出一个无需正则化项的高阶二部图融合框架,通过自适应地为不同阶的二部图邻近矩阵分配权重,学习一个一致的结构化二部图邻近矩阵,并在Laplace秩约束下优化聚类结果。

  4. 高效优化算法:通过奇异值分解(SVD)和迭代优化方法,提出了一种高效的算法,适用于大规模数据集的聚类任务。

目标函数

论文的目标函数旨在融合高阶二部图邻近矩阵,学习一个结构化的邻近矩阵P∈Rn×m\boldsymbol{P} \in \mathbb{R}^{n \times m}PRn×m,同时满足Laplace秩约束以确保聚类结构。目标函数如下:

min⁡α,P∑a=1d1α(a)∥P−B(a)∥F2 \min_{\boldsymbol{\alpha}, \boldsymbol{P}} \sum_{a=1}^d \frac{1}{\alpha_{(a)}} \|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F^2 α,Pmina=1dα(a)1PB(a)F2

约束条件

αT1=1,α≻0,P1=1,P≻0,rank⁡(L~S)=n+m−c \boldsymbol{\alpha}^T \mathbf{1} = 1, \boldsymbol{\alpha} \succ \mathbf{0}, \boldsymbol{P} \mathbf{1} = \mathbf{1}, \boldsymbol{P} \succ \mathbf{0}, \operatorname{rank}(\tilde{\boldsymbol{L}}_S) = n + m - c αT1=1,α0,P1=1,P0,rank(L~S)=n+mc

其中:

  • P∈Rn×m\boldsymbol{P} \in \mathbb{R}^{n \times m}PRn×m:学习的结构化邻近矩阵,表示样本与锚点之间的关系。
  • B(a)∈Rn×m\boldsymbol{B}_{(a)} \in \mathbb{R}^{n \times m}B(a)Rn×m:第aaa阶二部图邻近矩阵,包含高阶邻近信息。
  • α∈Rd\boldsymbol{\alpha} \in \mathbb{R}^dαRd:权重向量,用于自适应地分配不同阶矩阵的贡献,满足∑a=1dα(a)=1\sum_{a=1}^d \alpha_{(a)} = 1a=1dα(a)=1α(a)>0\alpha_{(a)} > 0α(a)>0
  • L~S=I−DS−1/2SDS−1/2\tilde{\boldsymbol{L}}_S = \boldsymbol{I} - \boldsymbol{D}_S^{-1/2} \boldsymbol{S} \boldsymbol{D}_S^{-1/2}L~S=IDS1/2SDS1/2:归一化的Laplace矩阵,S∈R(n+m)×(n+m)\boldsymbol{S} \in \mathbb{R}^{(n+m) \times (n+m)}SR(n+m)×(n+m)是基于P\boldsymbol{P}P构建的增广图矩阵,定义为:

S=[0PPT0] \boldsymbol{S} = \begin{bmatrix} \mathbf{0} & \boldsymbol{P} \\ \boldsymbol{P}^T & \mathbf{0} \end{bmatrix} S=[0PTP0]

  • DS\boldsymbol{D}_SDSS\boldsymbol{S}S的度矩阵,对角元素为DS(i,i)=∑j=1n+msij\boldsymbol{D}_S(i,i) = \sum_{j=1}^{n+m} s_{ij}DS(i,i)=j=1n+msij
  • ccc:聚类数,rank⁡(L~S)=n+m−c\operatorname{rank}(\tilde{\boldsymbol{L}}_S) = n + m - crank(L~S)=n+mc确保图有ccc个连通分量,对应ccc个聚类簇。
  • ∥⋅∥F\|\cdot\|_FF:Frobenius范数,用于度量矩阵差异。

目标函数的意义在于通过最小化P\boldsymbol{P}P与各阶二部图矩阵B(a)\boldsymbol{B}_{(a)}B(a)的加权差异,融合高阶信息,同时通过Laplace秩约束保证学到的P\boldsymbol{P}P具有明确的聚类结构。

目标函数的优化过程

论文提出了一种高效的迭代优化算法来求解目标函数,优化过程主要分为以下步骤:

  1. 初始化

    • 构造第一阶二部图邻近矩阵B(1)\boldsymbol{B}_{(1)}B(1),通过直接交替采样(Directly Alternate Sampling, DAS)选择mmm个锚点,并解决以下优化问题:

    min⁡bi1=1,(bi)T≥0∑j=1m∥xi−yj∥22⋅bij+γ⋅∑j=1m(bij)2 \min_{\boldsymbol{b}^i \mathbf{1} = 1, (\boldsymbol{b}^i)^T \geq 0} \sum_{j=1}^m \|\boldsymbol{x}_i - \boldsymbol{y}_j\|_2^2 \cdot b_{ij} + \gamma \cdot \sum_{j=1}^m (b_{ij})^2 bi1=1,(bi)T0minj=1mxiyj22bij+γj=1m(bij)2

    其中,bi\boldsymbol{b}^ibiB(1)\boldsymbol{B}_{(1)}B(1)的第iii行,xi\boldsymbol{x}_ixi是样本,yj\boldsymbol{y}_jyj是锚点,γ\gammaγ是正则化参数。此问题有闭式解,仅连接每个样本的kkk个最近邻锚点。

    • 通过SVD分解B(1)=UΣV\boldsymbol{B}_{(1)} = \boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}B(1)=UΣV,快速计算高阶二部图矩阵:

    B(k)=UΣ(2k−1)V \boldsymbol{B}_{(k)} = \boldsymbol{U} \boldsymbol{\Sigma}^{(2k-1)} \boldsymbol{V} B(k)=UΣ(2k1)V

    这一步骤将计算复杂度从O(mn2)O(mn^2)O(mn2)降至O(mn2)O(mn^2)O(mn2),因m≪nm \ll nmn,近似为线性。

  2. 迭代优化

    • 优化α\boldsymbol{\alpha}α:固定P\boldsymbol{P}P,目标函数关于α\boldsymbol{\alpha}α的子问题是:

    min⁡αT1=1,α≻0∑a=1d1α(a)∥P−B(a)∥F2 \min_{\boldsymbol{\alpha}^T \mathbf{1} = 1, \boldsymbol{\alpha} \succ \mathbf{0}} \sum_{a=1}^d \frac{1}{\alpha_{(a)}} \|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F^2 αT1=1,α0mina=1dα(a)1PB(a)F2

    通过拉格朗日乘子法可得闭式解:

    α(a)=∥P−B(a)∥F∑b=1d∥P−B(b)∥F \alpha_{(a)} = \frac{\|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F}{\sum_{b=1}^d \|\boldsymbol{P} - \boldsymbol{B}_{(b)}\|_F} α(a)=b=1dPB(b)FPB(a)F

    • 优化P\boldsymbol{P}P:固定α\boldsymbol{\alpha}α,目标函数为:

    min⁡P1=1,P≻0,rank⁡(L~S)=n+m−c∑a=1d1α(a)∥P−B(a)∥F2 \min_{\boldsymbol{P} \mathbf{1} = \mathbf{1}, \boldsymbol{P} \succ \mathbf{0}, \operatorname{rank}(\tilde{\boldsymbol{L}}_S) = n + m - c} \sum_{a=1}^d \frac{1}{\alpha_{(a)}} \|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F^2 P1=1,P0,rank(L~S)=n+mcmina=1dα(a)1PB(a)F2

    由于Laplace秩约束的非凸性,论文采用交替优化策略,通过投影到满足约束的子空间来近似求解。具体地,构造L~S\tilde{\boldsymbol{L}}_SL~S的特征分解,保留前n+m−cn+m-cn+mc个特征向量,迭代更新P\boldsymbol{P}P

  3. 收敛性验证

    • 算法在10-20次迭代内收敛(见图10),通过监控目标函数值的变化确保稳定性。

优化过程的关键在于利用SVD分解加速高阶矩阵计算,以及自适应权重分配减少超参数调整的复杂性。

主要的贡献点
  1. 高阶二部图邻近矩阵:提出了一种新颖的高阶二部图邻近矩阵定义,结合高阶邻近信息和二部图结构,解决了第一阶矩阵信息缺失和高计算复杂度的问题。

  2. 快速计算方法:通过SVD分解,将高阶二部图矩阵的计算复杂度从O(n3)O(n^3)O(n3)降至近似O(n)O(n)O(n),显著提高了算法对大规模数据集的适用性。

  3. 自适应融合框架:设计了一个无需正则化项的融合框架,自适应分配各阶矩阵的权重,减少了超参数数量,提高了模型的简洁性和实用性。

  4. 高效优化算法:提出了一种迭代优化算法,在Laplace秩约束下快速收敛,实验验证了其高效性和稳定性。

  5. 优越的实验表现:在多个基准数据集上,HBSGL在聚类性能(如纯度)和时间效率上均优于经典图聚类方法。

实验结果

实验在多个合成和真实数据集上进行,包括Glass、Yeast、Wine、German、Dermatology、JAFFE、COIL-20、MSRA25、MNIST和PE等。关键结果如下:

  1. 聚类性能

    • 表IV展示了HBSGL与十种对比方法的聚类纯度(Purity)性能。HBSGL在大多数数据集上表现最佳,例如在Wine数据集上达到98.82%(±0.00),显著优于K-means(68.03%±1.24)和CLR(90.93%±4.35)。
  2. 时间效率

    • HBSGL的计算复杂度近似线性,适合大规模数据集。实验表明,在MNIST和PE等大型数据集上,HBSGL避免了其他方法(如CLR、FNC)的内存溢出问题,且性能稳定。
  3. 超参数敏感性

    • 图9显示,超参数kkk(最近邻数)和ddd(高阶数)在合理范围内(4≤k≤84 \leq k \leq 84k83≤d≤73 \leq d \leq 73d7)表现稳定,推荐默认值k=5k=5k=5d=5d=5d=5,便于无监督场景下的应用。
  4. 收敛性

    • 图10表明,优化算法在8个数据集上均在10-20次迭代内收敛,验证了算法的高效性和稳定性。
  5. 可扩展性

    • 相比基于二部图的其他方法(如FSCSWF),HBSGL在数据集规模增大时性能下降较小,表现出良好的可扩展性。

算法实现过程详细解释

以下是HBSGL算法的详细实现步骤,结合数学公式和伪代码进行说明:

1. 输入与初始化

输入

  • 数据集{xi}i=1n∈Rp\{\boldsymbol{x}_i\}_{i=1}^n \in \mathbb{R}^p{xi}i=1nRpnnn个样本,每个样本维度为ppp
  • 聚类数ccc
  • 锚点数mmm(通常m≪nm \ll nmn,如m=150m=150m=150)。
  • 最近邻数kkk(默认k=5k=5k=5)。
  • 高阶总数ddd(默认d=5d=5d=5)。

初始化

  • 使用直接交替采样(DAS)选择mmm个锚点{yj}j=1m\{\boldsymbol{y}_j\}_{j=1}^m{yj}j=1m,复杂度为O(nm)O(nm)O(nm)
  • 构造第一阶二部图邻近矩阵B(1)∈Rn×m\boldsymbol{B}_{(1)} \in \mathbb{R}^{n \times m}B(1)Rn×m,通过求解:

min⁡bi1=1,(bi)T≥0∑j=1m∥xi−yj∥22⋅bij+γ⋅∑j=1m(bij)2 \min_{\boldsymbol{b}^i \mathbf{1} = 1, (\boldsymbol{b}^i)^T \geq 0} \sum_{j=1}^m \|\boldsymbol{x}_i - \boldsymbol{y}_j\|_2^2 \cdot b_{ij} + \gamma \cdot \sum_{j=1}^m (b_{ij})^2 bi1=1,(bi)T0minj=1mxiyj22bij+γj=1m(bij)2

得到闭式解,仅保留每个样本的kkk个最近邻锚点。

2. 构造高阶二部图邻近矩阵
  • B(1)\boldsymbol{B}_{(1)}B(1)进行SVD分解:

B(1)=UΣV \boldsymbol{B}_{(1)} = \boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V} B(1)=UΣV

其中,U∈Rn×r\boldsymbol{U} \in \mathbb{R}^{n \times r}URn×rΣ∈Rr×r\boldsymbol{\Sigma} \in \mathbb{R}^{r \times r}ΣRr×rV∈Rm×r\boldsymbol{V} \in \mathbb{R}^{m \times r}VRm×rrrr是矩阵的秩。

  • 计算第kkk阶二部图邻近矩阵(k=2,3,…,dk=2,3,\ldots,dk=2,3,,d):

B(k)=UΣ(2k−1)V \boldsymbol{B}_{(k)} = \boldsymbol{U} \boldsymbol{\Sigma}^{(2k-1)} \boldsymbol{V} B(k)=UΣ(2k1)V

此步骤复杂度为O(mn2)O(mn^2)O(mn2),因m≪nm \ll nmn,近似线性。

3. 优化目标函数

目标函数为:

min⁡α,P∑a=1d1α(a)∥P−B(a)∥F2 \min_{\boldsymbol{\alpha}, \boldsymbol{P}} \sum_{a=1}^d \frac{1}{\alpha_{(a)}} \|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F^2 α,Pmina=1dα(a)1PB(a)F2

约束为:

αT1=1,α≻0,P1=1,P≻0,rank⁡(L~S)=n+m−c \boldsymbol{\alpha}^T \mathbf{1} = 1, \boldsymbol{\alpha} \succ \mathbf{0}, \boldsymbol{P} \mathbf{1} = \mathbf{1}, \boldsymbol{P} \succ \mathbf{0}, \operatorname{rank}(\tilde{\boldsymbol{L}}_S) = n + m - c αT1=1,α0,P1=1,P0,rank(L~S)=n+mc

迭代优化

  1. 初始化P\boldsymbol{P}Pα\boldsymbol{\alpha}α

    • 初始化P\boldsymbol{P}PB(1)\boldsymbol{B}_{(1)}B(1)的加权平均,或随机初始化满足约束。
    • 初始化α\boldsymbol{\alpha}α为均匀分布,即α(a)=1/d\alpha_{(a)} = 1/dα(a)=1/d
  2. 更新α\boldsymbol{\alpha}α

    • 固定P\boldsymbol{P}P,计算:

    α(a)=∥P−B(a)∥F∑b=1d∥P−B(b)∥F \alpha_{(a)} = \frac{\|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F}{\sum_{b=1}^d \|\boldsymbol{P} - \boldsymbol{B}_{(b)}\|_F} α(a)=b=1dPB(b)FPB(a)F

  3. 更新P\boldsymbol{P}P

    • 固定α\boldsymbol{\alpha}α,优化:

    min⁡P1=1,P≻0,rank⁡(L~S)=n+m−c∑a=1d1α(a)∥P−B(a)∥F2 \min_{\boldsymbol{P} \mathbf{1} = \mathbf{1}, \boldsymbol{P} \succ \mathbf{0}, \operatorname{rank}(\tilde{\boldsymbol{L}}_S) = n + m - c} \sum_{a=1}^d \frac{1}{\alpha_{(a)}} \|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F^2 P1=1,P0,rank(L~S)=n+mcmina=1dα(a)1PB(a)F2

    • 构造增广图矩阵S\boldsymbol{S}S

    S=[0PPT0] \boldsymbol{S} = \begin{bmatrix} \mathbf{0} & \boldsymbol{P} \\ \boldsymbol{P}^T & \mathbf{0} \end{bmatrix} S=[0PTP0]

    • 计算度矩阵DS\boldsymbol{D}_SDS和归一化Laplace矩阵L~S\tilde{\boldsymbol{L}}_SL~S
    • 通过特征分解L~S\tilde{\boldsymbol{L}}_SL~S,保留前n+m−cn+m-cn+mc个特征向量,投影P\boldsymbol{P}P到满足秩约束的子空间。
    • 确保P1=1\boldsymbol{P} \mathbf{1} = \mathbf{1}P1=1P≻0\boldsymbol{P} \succ \mathbf{0}P0,通过投影或正化操作调整。
  4. 检查收敛

    • 计算目标函数值,若变化小于阈值或达到最大迭代次数(如20),则停止。
4. 输出聚类结果
  • P\boldsymbol{P}P中提取聚类簇:由于S\boldsymbol{S}Sccc个连通分量,可通过图分割方法(如谱聚类)或直接从P\boldsymbol{P}P的行分配得到聚类标签。
伪代码
输入: 数据集 {x_i}_{i=1}^n, 聚类数 c, 锚点数 m, 最近邻数 k=5, 高阶数 d=5
输出: 聚类标签

1. 使用 DAS 选择 m 个锚点 {y_j}_{j=1}^m
2. 构造第一阶二部图矩阵 B_(1):
   解决 min_{b^i 1=1, (b^i)^T>=0} Σ_j ||x_i - y_j||_2^2 b_ij + γ Σ_j (b_ij)^2
   保留 k 个最近邻连接
3. 对 B_(1) 进行 SVD 分解:B_(1) = U Σ V
4. 计算高阶二部图矩阵:
   for k = 2 to d:
       B_(k) = U Σ^(2k-1) V
5. 初始化 P = mean(B_(a)), α_(a) = 1/d
6. while 未收敛:
   a. 更新 α_(a) = ||P - B_(a)||_F / Σ_b ||P - B_(b)||_F
   b. 更新 P:
      构造 S = [0 P; P^T 0]
      计算 D_S 和 归一化 Laplace 矩阵 L~_S
      特征分解 L~_S,投影 P 到 rank(L~_S) = n+m-c
      确保 P 1 = 1, P > 0
   c. 检查目标函数值是否收敛
7. 从 P 提取聚类标签
实现注意事项
  1. 数值稳定性:SVD分解和特征分解需使用稳定的数值库(如LAPACK或SciPy)。
  2. 稀疏性B(1)\boldsymbol{B}_{(1)}B(1)通常是稀疏矩阵,可利用稀疏矩阵运算库(如SciPy.sparse)加速计算。
  3. 超参数选择k=5k=5k=5d=5d=5d=5适用于大多数无监督场景,mmm可根据数据集规模调整(如m=150m=150m=150nnn的10%)。
  4. 并行化:矩阵乘法和SVD可并行化,提升大规模数据集的处理效率。

总结

这篇论文提出了一种创新的高阶二部图聚类方法(HBSGL),通过结合高阶邻近信息和二部图结构,解决了传统邻近矩阵学习的信息缺失和高计算复杂度问题。其目标函数通过自适应权重融合高阶信息,并在Laplace秩约束下优化聚类结构。优化算法利用SVD分解和迭代更新,实现了高效收敛。实验结果验证了HBSGL在聚类性能、时间效率和可扩展性上的优越性。算法实现过程清晰,超参数易调,适合大规模无监督聚类任务,具有较高的学术和应用价值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Christo3

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值