论文基础信息
- 发表时间与期刊:2023年发表于《Pattern Recognition》(卷143,文章ID 109764)
- 作者单位:西南交通大学、山西大学、印度KL大学等
- DOI: 10.1016/j.patcog.2023.109764
核心思想
提出一种多视图深度嵌入聚类(MDEC)模型,解决传统多视图聚类方法的两个瓶颈:
- 计算效率:传统方法需为每个视图独立训练神经网络,计算成本随视图数量线性增长。
- 信息融合不足:现有方法在训练阶段难以有效整合多视图的互补信息。
创新点:
- 三重融合机制:串联(Concatenation)、卷积(Convolutional)、双线性(Bilinear)融合,充分捕获视图间交互。
- 自注意力机制(Auto-Attention):基于Maxwell-Boltzmann分布设计新型能量函数,解决梯度消失问题并增强特征相关性。
- 统一框架:联合优化视图嵌入、融合、聚类,避免分阶段训练的误差累积。
目标函数
目标函数整合四部分损失:
min
{
∑
i
=
1
n
∥
X
i
−
a
c
f
(
v
i
)
∥
F
2
⏟
自编码器损失
+
∑
i
=
1
n
∥
v
i
−
a
d
g
(
X
i
)
∥
F
2
⏟
自注意力损失
+
β
(
∑
i
∑
j
∈
N
i
(
t
)
sim
(
x
i
,
x
j
)
∥
z
i
−
z
j
∥
2
+
∑
i
∑
j
p
i
j
log
p
i
j
q
i
j
⏟
聚类损失
)
}
\min \left\{ \underbrace{\sum_{i=1}^{n} \|X_i - a_c f(v_i)\|_F^2}_{\text{自编码器损失}} + \underbrace{\sum_{i=1}^{n} \|v_i - a_d g(X_i)\|_F^2}_{\text{自注意力损失}} + \beta \left( \underbrace{\sum_i \sum_{j \in N_i(t)} \text{sim}(x_i, x_j) \|z_i - z_j\|^2 + \sum_i \sum_j p_{ij} \log \frac{p_{ij}}{q_{ij}}}_{\text{聚类损失}} \right) \right\}
min⎩
⎨
⎧自编码器损失
i=1∑n∥Xi−acf(vi)∥F2+自注意力损失
i=1∑n∥vi−adg(Xi)∥F2+β
聚类损失
i∑j∈Ni(t)∑sim(xi,xj)∥zi−zj∥2+i∑j∑pijlogqijpij
⎭
⎬
⎫
关键变量:
- a c f a_c f acf / a d g a_d g adg:编码器/解码器激活函数
- v i v_i vi:视图 i i i的隐层表示
- q i j q_{ij} qij / p i j p_{ij} pij:软分配概率与目标分布(见DEC [19])
- β \beta β:聚类损失权重
优化过程
- 预训练:独立训练各视图的自编码器,初始化权重 W E 0 W_E^0 WE0, W D 0 W_D^0 WD0。
- 动量更新:
- 速度更新: v ← α v − ϵ g v \leftarrow \alpha v - \epsilon g v←αv−ϵg
- 参数更新:
θ
←
θ
+
v
\theta \leftarrow \theta + v
θ←θ+v
其中 α ∈ [ 0 , 1 ] \alpha \in [0,1] α∈[0,1] 为动量系数, ϵ \epsilon ϵ 为学习率, g g g 为梯度。
- 交替优化:
- 固定自编码器权重,更新聚类中心 μ j \mu_j μj 和分配 q i j q_{ij} qij。
- 固定聚类分配,通过反向传播更新网络参数。
主要贡献
- 统一多视图训练框架:单网络处理多视图,降低计算复杂度(vs 传统单视图单网络)。
- 三重融合层:
- 串联融合:直接拼接特征( y cat y^{\text{cat}} ycat)。
- 卷积融合:引入可学习滤波器降维( y can = y cat ⊙ f + b y^{\text{can}} = y^{\text{cat}} \odot f + b ycan=ycat⊙f+b)。
- 双线性融合:捕获通道间交互( y bil = ∑ i , j y i j cat ⊗ y i j can y^{\text{bil}} = \sum_{i,j} y_{ij}^{\text{cat}} \otimes y_{ij}^{\text{can}} ybil=∑i,jyijcat⊗yijcan)。
- 自注意力机制:
- 新型能量函数 Cosed 结合余弦相似度(CS)与欧氏距离(ED):
Cosed ( q , k ) = ∑ q ( n ) ⋅ k ( n ) ⋅ ∑ ( q ( n ) − k ( n ) ) 2 ∣ q ∣ ⋅ ∣ k ∣ \text{Cosed}(q,k) = \frac{\sum q(n) \cdot k(n) \cdot \sqrt{\sum (q(n)-k(n))^2}}{|q| \cdot |k|} Cosed(q,k)=∣q∣⋅∣k∣∑q(n)⋅k(n)⋅∑(q(n)−k(n))2 - 用 Maxwell-Boltzmann分布 替代Softmax,解决概率分布过度平滑问题。
- 新型能量函数 Cosed 结合余弦相似度(CS)与欧氏距离(ED):
- 动量优化:加速收敛并避免局部最优。
实验结果
在 10个多视图数据集(图像+文本)上验证,显著优于基线:
数据集 | ACC提升 | 关键基线对比 |
---|---|---|
MNIST | 98.57% | 优于EDCN (98.50%) |
Fashion-MNIST | 70.57% | 优于DEMVC (78.99%) |
REUTERS-10K | 83.41% | 优于DCP-DEC (80.33%) |
Cora (图数据) | 73.10% | 优于DCP-DEC (66.82%) |
可视化分析(图3):
- MDEC的t-SNE可视化显示更清晰的簇间分离(如Cornell、Texas数据集)。
消融实验(表7): - 移除自注意力(MDEC-ATT):REUTERS-10K的ACC下降8.48%。
- 移除动量(MDEC-MOM):收敛速度下降,目标函数震荡加剧(图4)。
算法实现细节
流程(Algorithm 1)
- 多视图嵌入学习:
- 图像数据:按通道拼接特征( y i m cat = cat ( 3 , x n i , x n j ) y_{im}^{\text{cat}} = \text{cat}(3, x_n^i, x_n^j) yimcat=cat(3,xni,xnj))。
- 文本数据:沿维度拼接( y t x cat = cat ( 2 , x n i , x n j ) y_{tx}^{\text{cat}} = \text{cat}(2, x_n^i, x_n^j) ytxcat=cat(2,xni,xnj))。
- 卷积融合降维后,双线性融合捕获跨通道交互。
- 自注意力计算:
- 以解码器输出为 Query,编码器特征为 Key。
- 用 Cosed 函数计算能量得分 e e e,映射为注意力权重 α \alpha α。
- 生成上下文向量 c = ∑ α i v i c = \sum \alpha_i v_i c=∑αivi。
- 深度聚类:
- 初始化聚类中心(K-means)。
- 迭代更新:
- 计算软分配 q i j = ( 1 + ∥ z i − μ j ∥ 2 ) − 1 ∑ j ( 1 + ∥ z i − μ j ∥ 2 ) − 1 q_{ij} = \frac{(1 + \|z_i - \mu_j\|^2)^{-1}}{\sum_j (1 + \|z_i - \mu_j\|^2)^{-1}} qij=∑j(1+∥zi−μj∥2)−1(1+∥zi−μj∥2)−1
- 更新目标分布 p i j = q i j 2 / ∑ i q i j ∑ j ( q i j 2 / ∑ i q i j ) p_{ij} = \frac{q_{ij}^2 / \sum_i q_{ij}}{\sum_j (q_{ij}^2 / \sum_i q_{ij})} pij=∑j(qij2/∑iqij)qij2/∑iqij
超参数设置
- 动量系数 α = 0.9 \alpha = 0.9 α=0.9,学习率 ϵ = 1 0 − 3 \epsilon = 10^{-3} ϵ=10−3。
- 聚类损失权重 β = 0.1 \beta = 0.1 β=0.1。
- 编码器/解码器层数与视图数相同(避免过深导致计算开销)。
局限与未来工作
- 计算速度:注意力机制增加训练时间(未来将优化评分函数)。
- 模糊数据处理:未处理不精确/不一致视图信息(未来结合模糊理论)。
- 参数敏感性: β \beta β 需手动调整(未来研究自适应加权)。