TKDE-2025《Graph-Based Clustering: High-Order Bipartite Graph for Proximity Learning》

最新推荐文章于 2025-08-21 16:36:04 发布

Christo3

最新推荐文章于 2025-08-21 16:36:04 发布

阅读量830

点赞数 28

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习人工智能数据挖掘算法

本文链接：https://blog.csdn.net/weixin_41552975/article/details/148832518

机器学习专栏收录该内容

143 篇文章

订阅专栏

论文分析

核心思想

论文提出了一种基于高阶二部图（High-Order Bipartite Graph, HBSGL）的聚类方法，旨在解决传统结构化邻近矩阵学习中由于第一阶邻近矩阵缺少“必须连接”（must-links）信息导致的聚类性能受限问题。其核心思想包括：

引入高阶邻近信息：传统第一阶邻近矩阵由于数据复杂性和噪声干扰，常常缺少与真实邻近矩阵（groundtruth）相比的必须连接信息。高阶邻近矩阵通过“邻居的邻居成为邻居”的属性，能够补充这些缺失的连接信息，从而更全面地捕捉数据结构。
二部图降低计算复杂度：直接计算高阶邻近矩阵的复杂度为 $O(n^3)$ （ $n$ 为样本数），对大规模数据集不友好。论文通过引入二部图结构，将样本与少量锚点（anchor points）关联，构造高阶二部图邻近矩阵，大幅降低计算复杂度至近似线性 $O (n)$ 。
自适应融合框架：提出一个无需正则化项的高阶二部图融合框架，通过自适应地为不同阶的二部图邻近矩阵分配权重，学习一个一致的结构化二部图邻近矩阵，并在Laplace秩约束下优化聚类结果。
高效优化算法：通过奇异值分解（SVD）和迭代优化方法，提出了一种高效的算法，适用于大规模数据集的聚类任务。

目标函数

论文的目标函数旨在融合高阶二部图邻近矩阵，学习一个结构化的邻近矩阵 $P∈Rn×m\boldsymbol{P} \in \mathbb{R}^{n \times m}$ ，同时满足Laplace秩约束以确保聚类结构。目标函数如下：

$\min_{\boldsymbol{\alpha}, \boldsymbol{P}} \sum_{a=1}^d \frac{1}{\alpha_{(a)}} \|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F^2$

约束条件：

$\boldsymbol{\alpha}^T \mathbf{1} = 1, \boldsymbol{\alpha} \succ \mathbf{0}, \boldsymbol{P} \mathbf{1} = \mathbf{1}, \boldsymbol{P} \succ \mathbf{0}, \operatorname{rank}(\tilde{\boldsymbol{L}}_S) = n + m - c$

其中：

$P∈Rn×m\boldsymbol{P} \in \mathbb{R}^{n \times m}$ ：学习的结构化邻近矩阵，表示样本与锚点之间的关系。
$B(a)∈Rn×m\boldsymbol{B}_{(a)} \in \mathbb{R}^{n \times m}$ ：第 $a$ 阶二部图邻近矩阵，包含高阶邻近信息。
$α∈Rd\boldsymbol{\alpha} \in \mathbb{R}^d$ ：权重向量，用于自适应地分配不同阶矩阵的贡献，满足 $∑a=1dα(a)=1\sum_{a=1}^d \alpha_{(a)} = 1$ 且 $α(a)>0\alpha_{(a)} > 0$ 。
$L~S=I−DS−1/2SDS−1/2\tilde{\boldsymbol{L}}_S = \boldsymbol{I} - \boldsymbol{D}_S^{-1/2} \boldsymbol{S} \boldsymbol{D}_S^{-1/2}$ ：归一化的Laplace矩阵， $S∈R(n+m)×(n+m)\boldsymbol{S} \in \mathbb{R}^{(n+m) \times (n+m)}$ 是基于 $P\boldsymbol{P}$ 构建的增广图矩阵，定义为：

$\boldsymbol{S} = \begin{bmatrix} \mathbf{0} & \boldsymbol{P} \\ \boldsymbol{P}^T & \mathbf{0} \end{bmatrix}$

$DS\boldsymbol{D}_S$ ： $S\boldsymbol{S}$ 的度矩阵，对角元素为 $DS(i,i)=∑j=1n+msij\boldsymbol{D}_S(i,i) = \sum_{j=1}^{n+m} s_{ij}$ 。
$c$ ：聚类数， $rank⁡(L~S)=n+m−c\operatorname{rank}(\tilde{\boldsymbol{L}}_S) = n + m - c$ 确保图有 $c$ 个连通分量，对应 $c$ 个聚类簇。
$∥⋅∥F\|\cdot\|_F$ ：Frobenius范数，用于度量矩阵差异。

目标函数的意义在于通过最小化 $P\boldsymbol{P}$ 与各阶二部图矩阵 $B(a)\boldsymbol{B}_{(a)}$ 的加权差异，融合高阶信息，同时通过Laplace秩约束保证学到的 $P\boldsymbol{P}$ 具有明确的聚类结构。

目标函数的优化过程

论文提出了一种高效的迭代优化算法来求解目标函数，优化过程主要分为以下步骤：

初始化：
- 构造第一阶二部图邻近矩阵 $B(1)\boldsymbol{B}_{(1)}$ ，通过直接交替采样（Directly Alternate Sampling, DAS）选择 $m$ 个锚点，并解决以下优化问题：
$\min_{\boldsymbol{b}^i \mathbf{1} = 1, (\boldsymbol{b}^i)^T \geq 0} \sum_{j=1}^m \|\boldsymbol{x}_i - \boldsymbol{y}_j\|_2^2 \cdot b_{ij} + \gamma \cdot \sum_{j=1}^m (b_{ij})^2$

其中， $bi\boldsymbol{b}^i$ 是 $B(1)\boldsymbol{B}_{(1)}$ 的第 $i$ 行， $xi\boldsymbol{x}_i$ 是样本， $yj\boldsymbol{y}_j$ 是锚点， $γ\gamma$ 是正则化参数。此问题有闭式解，仅连接每个样本的 $k$ 个最近邻锚点。
- 通过SVD分解 $B(1)=UΣV\boldsymbol{B}_{(1)} = \boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}$ ，快速计算高阶二部图矩阵：
$\boldsymbol{B}_{(k)} = \boldsymbol{U} \boldsymbol{\Sigma}^{(2k-1)} \boldsymbol{V}$

这一步骤将计算复杂度从 $O(mn^2)$ 降至 $O(mn^2)$ ，因 $\ll n$ ，近似为线性。
迭代优化：
- 优化 $α\boldsymbol{\alpha}$ ：固定 $P\boldsymbol{P}$ ，目标函数关于 $α\boldsymbol{\alpha}$ 的子问题是：
$\min_{\boldsymbol{\alpha}^T \mathbf{1} = 1, \boldsymbol{\alpha} \succ \mathbf{0}} \sum_{a=1}^d \frac{1}{\alpha_{(a)}} \|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F^2$

通过拉格朗日乘子法可得闭式解：

$\alpha_{(a)} = \frac{\|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F}{\sum_{b=1}^d \|\boldsymbol{P} - \boldsymbol{B}_{(b)}\|_F}$
- 优化 $P\boldsymbol{P}$ ：固定 $α\boldsymbol{\alpha}$ ，目标函数为：
$\min_{\boldsymbol{P} \mathbf{1} = \mathbf{1}, \boldsymbol{P} \succ \mathbf{0}, \operatorname{rank}(\tilde{\boldsymbol{L}}_S) = n + m - c} \sum_{a=1}^d \frac{1}{\alpha_{(a)}} \|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F^2$

由于Laplace秩约束的非凸性，论文采用交替优化策略，通过投影到满足约束的子空间来近似求解。具体地，构造 $L~S\tilde{\boldsymbol{L}}_S$ 的特征分解，保留前 $n + m - c$ 个特征向量，迭代更新 $P\boldsymbol{P}$ 。
收敛性验证：
- 算法在10-20次迭代内收敛（见图10），通过监控目标函数值的变化确保稳定性。

优化过程的关键在于利用SVD分解加速高阶矩阵计算，以及自适应权重分配减少超参数调整的复杂性。

主要的贡献点

高阶二部图邻近矩阵：提出了一种新颖的高阶二部图邻近矩阵定义，结合高阶邻近信息和二部图结构，解决了第一阶矩阵信息缺失和高计算复杂度的问题。
快速计算方法：通过SVD分解，将高阶二部图矩阵的计算复杂度从 $O(n^3)$ 降至近似 $O (n)$ ，显著提高了算法对大规模数据集的适用性。
自适应融合框架：设计了一个无需正则化项的融合框架，自适应分配各阶矩阵的权重，减少了超参数数量，提高了模型的简洁性和实用性。
高效优化算法：提出了一种迭代优化算法，在Laplace秩约束下快速收敛，实验验证了其高效性和稳定性。
优越的实验表现：在多个基准数据集上，HBSGL在聚类性能（如纯度）和时间效率上均优于经典图聚类方法。

实验结果

实验在多个合成和真实数据集上进行，包括Glass、Yeast、Wine、German、Dermatology、JAFFE、COIL-20、MSRA25、MNIST和PE等。关键结果如下：

聚类性能：
- 表IV展示了HBSGL与十种对比方法的聚类纯度（Purity）性能。HBSGL在大多数数据集上表现最佳，例如在Wine数据集上达到98.82%（±0.00），显著优于K-means（68.03%±1.24）和CLR（90.93%±4.35）。
时间效率：
- HBSGL的计算复杂度近似线性，适合大规模数据集。实验表明，在MNIST和PE等大型数据集上，HBSGL避免了其他方法（如CLR、FNC）的内存溢出问题，且性能稳定。
超参数敏感性：
- 图9显示，超参数 $k$ （最近邻数）和 $d$ （高阶数）在合理范围内（ $\leq k \leq 8$ ， $\leq d \leq 7$ ）表现稳定，推荐默认值 $k = 5$ ， $d = 5$ ，便于无监督场景下的应用。
收敛性：
- 图10表明，优化算法在8个数据集上均在10-20次迭代内收敛，验证了算法的高效性和稳定性。
可扩展性：
- 相比基于二部图的其他方法（如FSCSWF），HBSGL在数据集规模增大时性能下降较小，表现出良好的可扩展性。

算法实现过程详细解释

以下是HBSGL算法的详细实现步骤，结合数学公式和伪代码进行说明：

1. 输入与初始化

输入：

数据集 ${xi}i=1n∈Rp\{\boldsymbol{x}_i\}_{i=1}^n \in \mathbb{R}^p$ ： $n$ 个样本，每个样本维度为 $p$ 。
聚类数 $c$ 。
锚点数 $m$ （通常 $\ll n$ ，如 $m = 150$ ）。
最近邻数 $k$ （默认 $k = 5$ ）。
高阶总数 $d$ （默认 $d = 5$ ）。

初始化：

使用直接交替采样（DAS）选择 $m$ 个锚点 ${yj}j=1m\{\boldsymbol{y}_j\}_{j=1}^m$ ，复杂度为 $O (nm)$ 。
构造第一阶二部图邻近矩阵 $B(1)∈Rn×m\boldsymbol{B}_{(1)} \in \mathbb{R}^{n \times m}$ ，通过求解：

$\min_{\boldsymbol{b}^i \mathbf{1} = 1, (\boldsymbol{b}^i)^T \geq 0} \sum_{j=1}^m \|\boldsymbol{x}_i - \boldsymbol{y}_j\|_2^2 \cdot b_{ij} + \gamma \cdot \sum_{j=1}^m (b_{ij})^2$

得到闭式解，仅保留每个样本的 $k$ 个最近邻锚点。

2. 构造高阶二部图邻近矩阵

对 $B(1)\boldsymbol{B}_{(1)}$ 进行SVD分解：

$\boldsymbol{B}_{(1)} = \boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}$

其中， $U∈Rn×r\boldsymbol{U} \in \mathbb{R}^{n \times r}$ ， $Σ∈Rr×r\boldsymbol{\Sigma} \in \mathbb{R}^{r \times r}$ ， $V∈Rm×r\boldsymbol{V} \in \mathbb{R}^{m \times r}$ ， $r$ 是矩阵的秩。

计算第 $k$ 阶二部图邻近矩阵（ $k=2,3,…,dk=2,3,\ldots,d$ ）：

$\boldsymbol{B}_{(k)} = \boldsymbol{U} \boldsymbol{\Sigma}^{(2k-1)} \boldsymbol{V}$

此步骤复杂度为 $O(mn^2)$ ，因 $\ll n$ ，近似线性。

3. 优化目标函数

目标函数为：

$\min_{\boldsymbol{\alpha}, \boldsymbol{P}} \sum_{a=1}^d \frac{1}{\alpha_{(a)}} \|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F^2$

约束为：

迭代优化：

初始化 $P\boldsymbol{P}$ 和 $α\boldsymbol{\alpha}$ ：
- 初始化 $P\boldsymbol{P}$ 为 $B(1)\boldsymbol{B}_{(1)}$ 的加权平均，或随机初始化满足约束。
- 初始化 $α\boldsymbol{\alpha}$ 为均匀分布，即 $α(a)=1/d\alpha_{(a)} = 1/d$ 。
更新 $α\boldsymbol{\alpha}$ ：
- 固定 $P\boldsymbol{P}$ ，计算：
$\alpha_{(a)} = \frac{\|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F}{\sum_{b=1}^d \|\boldsymbol{P} - \boldsymbol{B}_{(b)}\|_F}$
更新 $P\boldsymbol{P}$ ：
- 固定 $α\boldsymbol{\alpha}$ ，优化：
$\min_{\boldsymbol{P} \mathbf{1} = \mathbf{1}, \boldsymbol{P} \succ \mathbf{0}, \operatorname{rank}(\tilde{\boldsymbol{L}}_S) = n + m - c} \sum_{a=1}^d \frac{1}{\alpha_{(a)}} \|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F^2$
- 构造增广图矩阵 $S\boldsymbol{S}$ ：
$\boldsymbol{S} = \begin{bmatrix} \mathbf{0} & \boldsymbol{P} \\ \boldsymbol{P}^T & \mathbf{0} \end{bmatrix}$
- 计算度矩阵 $DS\boldsymbol{D}_S$ 和归一化Laplace矩阵 $L~S\tilde{\boldsymbol{L}}_S$ 。
- 通过特征分解 $L~S\tilde{\boldsymbol{L}}_S$ ，保留前 $n + m - c$ 个特征向量，投影 $P\boldsymbol{P}$ 到满足秩约束的子空间。
- 确保 $P1=1\boldsymbol{P} \mathbf{1} = \mathbf{1}$ ， $P≻0\boldsymbol{P} \succ \mathbf{0}$ ，通过投影或正化操作调整。
检查收敛：
- 计算目标函数值，若变化小于阈值或达到最大迭代次数（如20），则停止。

4. 输出聚类结果

从 $P\boldsymbol{P}$ 中提取聚类簇：由于 $S\boldsymbol{S}$ 有 $c$ 个连通分量，可通过图分割方法（如谱聚类）或直接从 $P\boldsymbol{P}$ 的行分配得到聚类标签。

伪代码

输入: 数据集 {x_i}_{i=1}^n, 聚类数 c, 锚点数 m, 最近邻数 k=5, 高阶数 d=5
输出: 聚类标签

1. 使用 DAS 选择 m 个锚点 {y_j}_{j=1}^m
2. 构造第一阶二部图矩阵 B_(1)：
   解决 min_{b^i 1=1, (b^i)^T>=0} Σ_j ||x_i - y_j||_2^2 b_ij + γ Σ_j (b_ij)^2
   保留 k 个最近邻连接
3. 对 B_(1) 进行 SVD 分解：B_(1) = U Σ V
4. 计算高阶二部图矩阵：
   for k = 2 to d:
       B_(k) = U Σ^(2k-1) V
5. 初始化 P = mean(B_(a)), α_(a) = 1/d
6. while 未收敛:
   a. 更新 α_(a) = ||P - B_(a)||_F / Σ_b ||P - B_(b)||_F
   b. 更新 P：
      构造 S = [0 P; P^T 0]
      计算 D_S 和 归一化 Laplace 矩阵 L~_S
      特征分解 L~_S，投影 P 到 rank(L~_S) = n+m-c
      确保 P 1 = 1, P > 0
   c. 检查目标函数值是否收敛
7. 从 P 提取聚类标签

实现注意事项

数值稳定性：SVD分解和特征分解需使用稳定的数值库（如LAPACK或SciPy）。
稀疏性： $B(1)\boldsymbol{B}_{(1)}$ 通常是稀疏矩阵，可利用稀疏矩阵运算库（如SciPy.sparse）加速计算。
超参数选择： $k = 5$ ， $d = 5$ 适用于大多数无监督场景， $m$ 可根据数据集规模调整（如 $m = 150$ 或 $n$ 的10%）。
并行化：矩阵乘法和SVD可并行化，提升大规模数据集的处理效率。

总结

这篇论文提出了一种创新的高阶二部图聚类方法（HBSGL），通过结合高阶邻近信息和二部图结构，解决了传统邻近矩阵学习的信息缺失和高计算复杂度问题。其目标函数通过自适应权重融合高阶信息，并在Laplace秩约束下优化聚类结构。优化算法利用SVD分解和迭代更新，实现了高效收敛。实验结果验证了HBSGL在聚类性能、时间效率和可扩展性上的优越性。算法实现过程清晰，超参数易调，适合大规模无监督聚类任务，具有较高的学术和应用价值。