论文分析
核心思想
论文提出了一种基于高阶二部图(High-Order Bipartite Graph, HBSGL)的聚类方法,旨在解决传统结构化邻近矩阵学习中由于第一阶邻近矩阵缺少“必须连接”(must-links)信息导致的聚类性能受限问题。其核心思想包括:
-
引入高阶邻近信息:传统第一阶邻近矩阵由于数据复杂性和噪声干扰,常常缺少与真实邻近矩阵(groundtruth)相比的必须连接信息。高阶邻近矩阵通过“邻居的邻居成为邻居”的属性,能够补充这些缺失的连接信息,从而更全面地捕捉数据结构。
-
二部图降低计算复杂度:直接计算高阶邻近矩阵的复杂度为O(n3)O(n^3)O(n3)(nnn为样本数),对大规模数据集不友好。论文通过引入二部图结构,将样本与少量锚点(anchor points)关联,构造高阶二部图邻近矩阵,大幅降低计算复杂度至近似线性O(n)O(n)O(n)。
-
自适应融合框架:提出一个无需正则化项的高阶二部图融合框架,通过自适应地为不同阶的二部图邻近矩阵分配权重,学习一个一致的结构化二部图邻近矩阵,并在Laplace秩约束下优化聚类结果。
-
高效优化算法:通过奇异值分解(SVD)和迭代优化方法,提出了一种高效的算法,适用于大规模数据集的聚类任务。
目标函数
论文的目标函数旨在融合高阶二部图邻近矩阵,学习一个结构化的邻近矩阵P∈Rn×m\boldsymbol{P} \in \mathbb{R}^{n \times m}P∈Rn×m,同时满足Laplace秩约束以确保聚类结构。目标函数如下:
minα,P∑a=1d1α(a)∥P−B(a)∥F2 \min_{\boldsymbol{\alpha}, \boldsymbol{P}} \sum_{a=1}^d \frac{1}{\alpha_{(a)}} \|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F^2 α,Pmina=1∑dα(a)1∥P−B(a)∥F2
约束条件:
αT1=1,α≻0,P1=1,P≻0,rank(L~S)=n+m−c \boldsymbol{\alpha}^T \mathbf{1} = 1, \boldsymbol{\alpha} \succ \mathbf{0}, \boldsymbol{P} \mathbf{1} = \mathbf{1}, \boldsymbol{P} \succ \mathbf{0}, \operatorname{rank}(\tilde{\boldsymbol{L}}_S) = n + m - c αT1=1,α≻0,P1=1,P≻0,rank(L~S)=n+m−c
其中:
- P∈Rn×m\boldsymbol{P} \in \mathbb{R}^{n \times m}P∈Rn×m:学习的结构化邻近矩阵,表示样本与锚点之间的关系。
- B(a)∈Rn×m\boldsymbol{B}_{(a)} \in \mathbb{R}^{n \times m}B(a)∈Rn×m:第aaa阶二部图邻近矩阵,包含高阶邻近信息。
- α∈Rd\boldsymbol{\alpha} \in \mathbb{R}^dα∈Rd:权重向量,用于自适应地分配不同阶矩阵的贡献,满足∑a=1dα(a)=1\sum_{a=1}^d \alpha_{(a)} = 1∑a=1dα(a)=1且α(a)>0\alpha_{(a)} > 0α(a)>0。
- L~S=I−DS−1/2SDS−1/2\tilde{\boldsymbol{L}}_S = \boldsymbol{I} - \boldsymbol{D}_S^{-1/2} \boldsymbol{S} \boldsymbol{D}_S^{-1/2}L~S=I−DS−1/2SDS−1/2:归一化的Laplace矩阵,S∈R(n+m)×(n+m)\boldsymbol{S} \in \mathbb{R}^{(n+m) \times (n+m)}S∈R(n+m)×(n+m)是基于P\boldsymbol{P}P构建的增广图矩阵,定义为:
S=[0PPT0] \boldsymbol{S} = \begin{bmatrix} \mathbf{0} & \boldsymbol{P} \\ \boldsymbol{P}^T & \mathbf{0} \end{bmatrix} S=[0PTP0]
- DS\boldsymbol{D}_SDS:S\boldsymbol{S}S的度矩阵,对角元素为DS(i,i)=∑j=1n+msij\boldsymbol{D}_S(i,i) = \sum_{j=1}^{n+m} s_{ij}DS(i,i)=∑j=1n+msij。
- ccc:聚类数,rank(L~S)=n+m−c\operatorname{rank}(\tilde{\boldsymbol{L}}_S) = n + m - crank(L~S)=n+m−c确保图有ccc个连通分量,对应ccc个聚类簇。
- ∥⋅∥F\|\cdot\|_F∥⋅∥F:Frobenius范数,用于度量矩阵差异。
目标函数的意义在于通过最小化P\boldsymbol{P}P与各阶二部图矩阵B(a)\boldsymbol{B}_{(a)}B(a)的加权差异,融合高阶信息,同时通过Laplace秩约束保证学到的P\boldsymbol{P}P具有明确的聚类结构。
目标函数的优化过程
论文提出了一种高效的迭代优化算法来求解目标函数,优化过程主要分为以下步骤:
-
初始化:
- 构造第一阶二部图邻近矩阵B(1)\boldsymbol{B}_{(1)}B(1),通过直接交替采样(Directly Alternate Sampling, DAS)选择mmm个锚点,并解决以下优化问题:
minbi1=1,(bi)T≥0∑j=1m∥xi−yj∥22⋅bij+γ⋅∑j=1m(bij)2 \min_{\boldsymbol{b}^i \mathbf{1} = 1, (\boldsymbol{b}^i)^T \geq 0} \sum_{j=1}^m \|\boldsymbol{x}_i - \boldsymbol{y}_j\|_2^2 \cdot b_{ij} + \gamma \cdot \sum_{j=1}^m (b_{ij})^2 bi1=1,(bi)T≥0minj=1∑m∥xi−yj∥22⋅bij+γ⋅j=1∑m(bij)2
其中,bi\boldsymbol{b}^ibi是B(1)\boldsymbol{B}_{(1)}B(1)的第iii行,xi\boldsymbol{x}_ixi是样本,yj\boldsymbol{y}_jyj是锚点,γ\gammaγ是正则化参数。此问题有闭式解,仅连接每个样本的kkk个最近邻锚点。
- 通过SVD分解B(1)=UΣV\boldsymbol{B}_{(1)} = \boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}B(1)=UΣV,快速计算高阶二部图矩阵:
B(k)=UΣ(2k−1)V \boldsymbol{B}_{(k)} = \boldsymbol{U} \boldsymbol{\Sigma}^{(2k-1)} \boldsymbol{V} B(k)=UΣ(2k−1)V
这一步骤将计算复杂度从O(mn2)O(mn^2)O(mn2)降至O(mn2)O(mn^2)O(mn2),因m≪nm \ll nm≪n,近似为线性。
-
迭代优化:
- 优化α\boldsymbol{\alpha}α:固定P\boldsymbol{P}P,目标函数关于α\boldsymbol{\alpha}α的子问题是:
minαT1=1,α≻0∑a=1d1α(a)∥P−B(a)∥F2 \min_{\boldsymbol{\alpha}^T \mathbf{1} = 1, \boldsymbol{\alpha} \succ \mathbf{0}} \sum_{a=1}^d \frac{1}{\alpha_{(a)}} \|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F^2 αT1=1,α≻0mina=1∑dα(a)1∥P−B(a)∥F2
通过拉格朗日乘子法可得闭式解:
α(a)=∥P−B(a)∥F∑b=1d∥P−B(b)∥F \alpha_{(a)} = \frac{\|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F}{\sum_{b=1}^d \|\boldsymbol{P} - \boldsymbol{B}_{(b)}\|_F} α(a)=∑b=1d∥P−B(b)∥F∥P−B(a)∥F
- 优化P\boldsymbol{P}P:固定α\boldsymbol{\alpha}α,目标函数为:
minP1=1,P≻0,rank(L~S)=n+m−c∑a=1d1α(a)∥P−B(a)∥F2 \min_{\boldsymbol{P} \mathbf{1} = \mathbf{1}, \boldsymbol{P} \succ \mathbf{0}, \operatorname{rank}(\tilde{\boldsymbol{L}}_S) = n + m - c} \sum_{a=1}^d \frac{1}{\alpha_{(a)}} \|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F^2 P1=1,P≻0,rank(L~S)=n+m−cmina=1∑dα(a)1∥P−B(a)∥F2
由于Laplace秩约束的非凸性,论文采用交替优化策略,通过投影到满足约束的子空间来近似求解。具体地,构造L~S\tilde{\boldsymbol{L}}_SL~S的特征分解,保留前n+m−cn+m-cn+m−c个特征向量,迭代更新P\boldsymbol{P}P。
-
收敛性验证:
- 算法在10-20次迭代内收敛(见图10),通过监控目标函数值的变化确保稳定性。
优化过程的关键在于利用SVD分解加速高阶矩阵计算,以及自适应权重分配减少超参数调整的复杂性。
主要的贡献点
-
高阶二部图邻近矩阵:提出了一种新颖的高阶二部图邻近矩阵定义,结合高阶邻近信息和二部图结构,解决了第一阶矩阵信息缺失和高计算复杂度的问题。
-
快速计算方法:通过SVD分解,将高阶二部图矩阵的计算复杂度从O(n3)O(n^3)O(n3)降至近似O(n)O(n)O(n),显著提高了算法对大规模数据集的适用性。
-
自适应融合框架:设计了一个无需正则化项的融合框架,自适应分配各阶矩阵的权重,减少了超参数数量,提高了模型的简洁性和实用性。
-
高效优化算法:提出了一种迭代优化算法,在Laplace秩约束下快速收敛,实验验证了其高效性和稳定性。
-
优越的实验表现:在多个基准数据集上,HBSGL在聚类性能(如纯度)和时间效率上均优于经典图聚类方法。
实验结果
实验在多个合成和真实数据集上进行,包括Glass、Yeast、Wine、German、Dermatology、JAFFE、COIL-20、MSRA25、MNIST和PE等。关键结果如下:
-
聚类性能:
- 表IV展示了HBSGL与十种对比方法的聚类纯度(Purity)性能。HBSGL在大多数数据集上表现最佳,例如在Wine数据集上达到98.82%(±0.00),显著优于K-means(68.03%±1.24)和CLR(90.93%±4.35)。
-
时间效率:
- HBSGL的计算复杂度近似线性,适合大规模数据集。实验表明,在MNIST和PE等大型数据集上,HBSGL避免了其他方法(如CLR、FNC)的内存溢出问题,且性能稳定。
-
超参数敏感性:
- 图9显示,超参数kkk(最近邻数)和ddd(高阶数)在合理范围内(4≤k≤84 \leq k \leq 84≤k≤8,3≤d≤73 \leq d \leq 73≤d≤7)表现稳定,推荐默认值k=5k=5k=5,d=5d=5d=5,便于无监督场景下的应用。
-
收敛性:
- 图10表明,优化算法在8个数据集上均在10-20次迭代内收敛,验证了算法的高效性和稳定性。
-
可扩展性:
- 相比基于二部图的其他方法(如FSCSWF),HBSGL在数据集规模增大时性能下降较小,表现出良好的可扩展性。
算法实现过程详细解释
以下是HBSGL算法的详细实现步骤,结合数学公式和伪代码进行说明:
1. 输入与初始化
输入:
- 数据集{xi}i=1n∈Rp\{\boldsymbol{x}_i\}_{i=1}^n \in \mathbb{R}^p{xi}i=1n∈Rp:nnn个样本,每个样本维度为ppp。
- 聚类数ccc。
- 锚点数mmm(通常m≪nm \ll nm≪n,如m=150m=150m=150)。
- 最近邻数kkk(默认k=5k=5k=5)。
- 高阶总数ddd(默认d=5d=5d=5)。
初始化:
- 使用直接交替采样(DAS)选择mmm个锚点{yj}j=1m\{\boldsymbol{y}_j\}_{j=1}^m{yj}j=1m,复杂度为O(nm)O(nm)O(nm)。
- 构造第一阶二部图邻近矩阵B(1)∈Rn×m\boldsymbol{B}_{(1)} \in \mathbb{R}^{n \times m}B(1)∈Rn×m,通过求解:
minbi1=1,(bi)T≥0∑j=1m∥xi−yj∥22⋅bij+γ⋅∑j=1m(bij)2 \min_{\boldsymbol{b}^i \mathbf{1} = 1, (\boldsymbol{b}^i)^T \geq 0} \sum_{j=1}^m \|\boldsymbol{x}_i - \boldsymbol{y}_j\|_2^2 \cdot b_{ij} + \gamma \cdot \sum_{j=1}^m (b_{ij})^2 bi1=1,(bi)T≥0minj=1∑m∥xi−yj∥22⋅bij+γ⋅j=1∑m(bij)2
得到闭式解,仅保留每个样本的kkk个最近邻锚点。
2. 构造高阶二部图邻近矩阵
- 对B(1)\boldsymbol{B}_{(1)}B(1)进行SVD分解:
B(1)=UΣV \boldsymbol{B}_{(1)} = \boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V} B(1)=UΣV
其中,U∈Rn×r\boldsymbol{U} \in \mathbb{R}^{n \times r}U∈Rn×r,Σ∈Rr×r\boldsymbol{\Sigma} \in \mathbb{R}^{r \times r}Σ∈Rr×r,V∈Rm×r\boldsymbol{V} \in \mathbb{R}^{m \times r}V∈Rm×r,rrr是矩阵的秩。
- 计算第kkk阶二部图邻近矩阵(k=2,3,…,dk=2,3,\ldots,dk=2,3,…,d):
B(k)=UΣ(2k−1)V \boldsymbol{B}_{(k)} = \boldsymbol{U} \boldsymbol{\Sigma}^{(2k-1)} \boldsymbol{V} B(k)=UΣ(2k−1)V
此步骤复杂度为O(mn2)O(mn^2)O(mn2),因m≪nm \ll nm≪n,近似线性。
3. 优化目标函数
目标函数为:
minα,P∑a=1d1α(a)∥P−B(a)∥F2 \min_{\boldsymbol{\alpha}, \boldsymbol{P}} \sum_{a=1}^d \frac{1}{\alpha_{(a)}} \|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F^2 α,Pmina=1∑dα(a)1∥P−B(a)∥F2
约束为:
αT1=1,α≻0,P1=1,P≻0,rank(L~S)=n+m−c \boldsymbol{\alpha}^T \mathbf{1} = 1, \boldsymbol{\alpha} \succ \mathbf{0}, \boldsymbol{P} \mathbf{1} = \mathbf{1}, \boldsymbol{P} \succ \mathbf{0}, \operatorname{rank}(\tilde{\boldsymbol{L}}_S) = n + m - c αT1=1,α≻0,P1=1,P≻0,rank(L~S)=n+m−c
迭代优化:
-
初始化P\boldsymbol{P}P和α\boldsymbol{\alpha}α:
- 初始化P\boldsymbol{P}P为B(1)\boldsymbol{B}_{(1)}B(1)的加权平均,或随机初始化满足约束。
- 初始化α\boldsymbol{\alpha}α为均匀分布,即α(a)=1/d\alpha_{(a)} = 1/dα(a)=1/d。
-
更新α\boldsymbol{\alpha}α:
- 固定P\boldsymbol{P}P,计算:
α(a)=∥P−B(a)∥F∑b=1d∥P−B(b)∥F \alpha_{(a)} = \frac{\|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F}{\sum_{b=1}^d \|\boldsymbol{P} - \boldsymbol{B}_{(b)}\|_F} α(a)=∑b=1d∥P−B(b)∥F∥P−B(a)∥F
-
更新P\boldsymbol{P}P:
- 固定α\boldsymbol{\alpha}α,优化:
minP1=1,P≻0,rank(L~S)=n+m−c∑a=1d1α(a)∥P−B(a)∥F2 \min_{\boldsymbol{P} \mathbf{1} = \mathbf{1}, \boldsymbol{P} \succ \mathbf{0}, \operatorname{rank}(\tilde{\boldsymbol{L}}_S) = n + m - c} \sum_{a=1}^d \frac{1}{\alpha_{(a)}} \|\boldsymbol{P} - \boldsymbol{B}_{(a)}\|_F^2 P1=1,P≻0,rank(L~S)=n+m−cmina=1∑dα(a)1∥P−B(a)∥F2
- 构造增广图矩阵S\boldsymbol{S}S:
S=[0PPT0] \boldsymbol{S} = \begin{bmatrix} \mathbf{0} & \boldsymbol{P} \\ \boldsymbol{P}^T & \mathbf{0} \end{bmatrix} S=[0PTP0]
- 计算度矩阵DS\boldsymbol{D}_SDS和归一化Laplace矩阵L~S\tilde{\boldsymbol{L}}_SL~S。
- 通过特征分解L~S\tilde{\boldsymbol{L}}_SL~S,保留前n+m−cn+m-cn+m−c个特征向量,投影P\boldsymbol{P}P到满足秩约束的子空间。
- 确保P1=1\boldsymbol{P} \mathbf{1} = \mathbf{1}P1=1,P≻0\boldsymbol{P} \succ \mathbf{0}P≻0,通过投影或正化操作调整。
-
检查收敛:
- 计算目标函数值,若变化小于阈值或达到最大迭代次数(如20),则停止。
4. 输出聚类结果
- 从P\boldsymbol{P}P中提取聚类簇:由于S\boldsymbol{S}S有ccc个连通分量,可通过图分割方法(如谱聚类)或直接从P\boldsymbol{P}P的行分配得到聚类标签。
伪代码
输入: 数据集 {x_i}_{i=1}^n, 聚类数 c, 锚点数 m, 最近邻数 k=5, 高阶数 d=5
输出: 聚类标签
1. 使用 DAS 选择 m 个锚点 {y_j}_{j=1}^m
2. 构造第一阶二部图矩阵 B_(1):
解决 min_{b^i 1=1, (b^i)^T>=0} Σ_j ||x_i - y_j||_2^2 b_ij + γ Σ_j (b_ij)^2
保留 k 个最近邻连接
3. 对 B_(1) 进行 SVD 分解:B_(1) = U Σ V
4. 计算高阶二部图矩阵:
for k = 2 to d:
B_(k) = U Σ^(2k-1) V
5. 初始化 P = mean(B_(a)), α_(a) = 1/d
6. while 未收敛:
a. 更新 α_(a) = ||P - B_(a)||_F / Σ_b ||P - B_(b)||_F
b. 更新 P:
构造 S = [0 P; P^T 0]
计算 D_S 和 归一化 Laplace 矩阵 L~_S
特征分解 L~_S,投影 P 到 rank(L~_S) = n+m-c
确保 P 1 = 1, P > 0
c. 检查目标函数值是否收敛
7. 从 P 提取聚类标签
实现注意事项
- 数值稳定性:SVD分解和特征分解需使用稳定的数值库(如LAPACK或SciPy)。
- 稀疏性:B(1)\boldsymbol{B}_{(1)}B(1)通常是稀疏矩阵,可利用稀疏矩阵运算库(如SciPy.sparse)加速计算。
- 超参数选择:k=5k=5k=5,d=5d=5d=5适用于大多数无监督场景,mmm可根据数据集规模调整(如m=150m=150m=150或nnn的10%)。
- 并行化:矩阵乘法和SVD可并行化,提升大规模数据集的处理效率。
总结
这篇论文提出了一种创新的高阶二部图聚类方法(HBSGL),通过结合高阶邻近信息和二部图结构,解决了传统邻近矩阵学习的信息缺失和高计算复杂度问题。其目标函数通过自适应权重融合高阶信息,并在Laplace秩约束下优化聚类结构。优化算法利用SVD分解和迭代更新,实现了高效收敛。实验结果验证了HBSGL在聚类性能、时间效率和可扩展性上的优越性。算法实现过程清晰,超参数易调,适合大规模无监督聚类任务,具有较高的学术和应用价值。