2. 核心思想
该论文的核心是提出一种 自监督对称非负矩阵分解 (Self-supervised SNMF, S3NMF),用于提升聚类性能。
-
背景:SNMF (Symmetric NMF) 在聚类上效果很好,但由于其目标函数是非凸的,非常依赖初始化,差的初始化会导致糟糕的聚类结果。
-
思路:作者受到 集成聚类 (Ensemble Clustering) 的启发,反而利用这种“对初始化敏感”的特性。
- 通过多次随机初始化运行 SNMF,得到多个候选分解结果。
- 对这些结果进行质量评估并加权融合,构建一个新的、更优的相似度矩阵。
- 在新的矩阵上继续迭代 SNMF → 融合 → 更新,逐步提升聚类性能。
其本质是 将 SNMF 的随机初始化带来的多样性转化为逐步增强的信号,从而不依赖外部监督信息,也能获得更好的聚类表现。
3. 目标函数
基本的 SNMF 目标函数是:
minV≥0 ∥W−VVT∥F2 \min_{V \ge 0} \; \| W - VV^T \|_F^2 V≥0min∥W−VVT∥F2
其中 W∈Rn×nW \in \mathbb{R}^{n \times n}W∈Rn×n 是样本相似度矩阵,V∈Rn×kV \in \mathbb{R}^{n \times k}V∈Rn×k 是非负因子矩阵。
而 S3NMF 的目标函数是在多次分解的结果上加入权重学习:
minVm,S,α ∑m=1b(αm)τ ∥S−VmVmT∥F2 \min_{V_m, S, \alpha} \; \sum_{m=1}^b (\alpha_m)^\tau \, \| S - V_m V_m^T \|_F^2 Vm,S,αminm=1∑b(αm)τ∥S−VmVmT∥F2
约束条件:
- V_m≥0,;∀mV\_m \ge 0, ; \forall mV_m≥0,;∀m
- α≥0,;αT1=1\alpha \ge 0, ; \alpha^T 1 = 1α≥0,;αT1=1
其中:
- bbb = 初始化次数(即多个 SNMF 分解的数量),
- α\alphaα = 权重向量(自适应学习,衡量每个分解结果的质量),
- SSS = 新构造的相似度矩阵,更新方式:
S=∑m=1bαm MmMmT S = \sum_{m=1}^b \alpha_m \, M_m M_m^T S=m=1∑bαmMmMmT
(M_mM\_mM_m 是第 mmm 次分解得到的聚类划分矩阵)。
4. 优化过程
优化通过 交替迭代 (Alternating Optimization) 完成:
-
固定 α\alphaα 更新 V_mV\_mV_m:
子问题为minVm≥0(αm)τ ∥S−VmVmT∥F2 \min_{V_m \ge 0} (\alpha_m)^\tau \, \| S - V_m V_m^T \|_F^2 Vm≥0min(αm)τ∥S−VmVmT∥F2
这是一个四阶非凸问题,作者利用 辅助函数法 (Auxiliary Function Method) 推导出乘法更新规则:
Vm,ij(t+1)=Vm,ij(t)((SVm(t))ij(Vm(t)Vm(t)TVm(t))ij)1/4 V_{m,ij}^{(t+1)} = V_{m,ij}^{(t)} \left( \frac{(S V_m^{(t)})_{ij}}{(V_m^{(t)} V_m^{(t)T} V_m^{(t)})_{ij}} \right)^{1/4} Vm,ij(t+1)=Vm,ij(t)((Vm(t)Vm(t)TVm(t))ij(SVm(t))ij)1/4
-
固定 V_mV\_mV_m 更新 α\alphaα:
子问题为minα≥0,αT1=1 ∑m(αm)τhm,hm=∥S−VmVmT∥F2 \min_{\alpha \ge 0, \alpha^T1=1} \; \sum_m (\alpha_m)^\tau h_m, \quad h_m = \| S - V_m V_m^T \|_F^2 α≥0,αT1=1minm∑(αm)τhm,hm=∥S−VmVmT∥F2
通过拉格朗日乘子法,得到解析解:
αm=(τhm)11−τ∑j=1b(τhj)11−τ \alpha_m = \frac{( \tau h_m )^{\tfrac{1}{1-\tau}}}{\sum_{j=1}^b ( \tau h_j )^{\tfrac{1}{1-\tau}}} αm=∑j=1b(τhj)1−τ1(τhm)1−τ1
保证 α_m≥0\alpha\_m \ge 0α_m≥0 且 ∑α_m=1\sum \alpha\_m = 1∑α_m=1。
-
更新 $S$:
按公式S=∑m=1bαmMmMmT S = \sum_{m=1}^b \alpha_m M_m M_m^T S=m=1∑bαmMmMmT
-
迭代直到收敛或满足停止条件:利用 平均互信息 (ANMI) 衡量不同聚类划分间的一致性,若一致性下降则停止。
5. 主要贡献点
- 提出 S3NMF:一种无需额外监督信息的自监督 SNMF,能够逐步提升聚类性能。
- 目标函数新设计:通过引入加权融合机制,将多个 SNMF 初始化结果联合建模。
- 优化算法:提出基于辅助函数和交替迭代的方法,推导了更新公式,并证明了收敛性。
- 停止准则:基于聚类结果间一致性的 ANMI 作为自适应停止条件,避免过拟合或震荡。
- 实验效果显著:在 10 个数据集上对比 12 种方法,S3NMF 在 44/50 种情况下取得最佳性能。