PR-2023《Auto-attention mechanism for multi-view deep embedding clustering》

论文基础信息

  • 发表时间与期刊:2023年发表于《Pattern Recognition》(卷143,文章ID 109764)
  • 作者单位:西南交通大学、山西大学、印度KL大学等
  • DOI: 10.1016/j.patcog.2023.109764

核心思想

提出一种多视图深度嵌入聚类(MDEC)模型,解决传统多视图聚类方法的两个瓶颈:

  1. 计算效率:传统方法需为每个视图独立训练神经网络,计算成本随视图数量线性增长。
  2. 信息融合不足:现有方法在训练阶段难以有效整合多视图的互补信息。
    创新点
  • 三重融合机制:串联(Concatenation)、卷积(Convolutional)、双线性(Bilinear)融合,充分捕获视图间交互。
  • 自注意力机制(Auto-Attention):基于Maxwell-Boltzmann分布设计新型能量函数,解决梯度消失问题并增强特征相关性。
  • 统一框架:联合优化视图嵌入、融合、聚类,避免分阶段训练的误差累积。

目标函数

目标函数整合四部分损失:
min ⁡ { ∑ i = 1 n ∥ X i − a c f ( v i ) ∥ F 2 ⏟ 自编码器损失 + ∑ i = 1 n ∥ v i − a d g ( X i ) ∥ F 2 ⏟ 自注意力损失 + β ( ∑ i ∑ j ∈ N i ( t ) sim ( x i , x j ) ∥ z i − z j ∥ 2 + ∑ i ∑ j p i j log ⁡ p i j q i j ⏟ 聚类损失 ) } \min \left\{ \underbrace{\sum_{i=1}^{n} \|X_i - a_c f(v_i)\|_F^2}_{\text{自编码器损失}} + \underbrace{\sum_{i=1}^{n} \|v_i - a_d g(X_i)\|_F^2}_{\text{自注意力损失}} + \beta \left( \underbrace{\sum_i \sum_{j \in N_i(t)} \text{sim}(x_i, x_j) \|z_i - z_j\|^2 + \sum_i \sum_j p_{ij} \log \frac{p_{ij}}{q_{ij}}}_{\text{聚类损失}} \right) \right\} min 自编码器损失 i=1nXiacf(vi)F2+自注意力损失 i=1nviadg(Xi)F2+β 聚类损失 ijNi(t)sim(xi,xj)zizj2+ijpijlogqijpij
关键变量

  • a c f a_c f acf / a d g a_d g adg:编码器/解码器激活函数
  • v i v_i vi:视图 i i i的隐层表示
  • q i j q_{ij} qij / p i j p_{ij} pij:软分配概率与目标分布(见DEC [19])
  • β \beta β:聚类损失权重

优化过程

  1. 预训练:独立训练各视图的自编码器,初始化权重 W E 0 W_E^0 WE0, W D 0 W_D^0 WD0
  2. 动量更新
    • 速度更新 v ← α v − ϵ g v \leftarrow \alpha v - \epsilon g vαvϵg
    • 参数更新 θ ← θ + v \theta \leftarrow \theta + v θθ+v
      其中 α ∈ [ 0 , 1 ] \alpha \in [0,1] α[0,1] 为动量系数, ϵ \epsilon ϵ 为学习率, g g g 为梯度。
  3. 交替优化
    • 固定自编码器权重,更新聚类中心 μ j \mu_j μj 和分配 q i j q_{ij} qij
    • 固定聚类分配,通过反向传播更新网络参数。

主要贡献

  1. 统一多视图训练框架:单网络处理多视图,降低计算复杂度(vs 传统单视图单网络)。
  2. 三重融合层
    • 串联融合:直接拼接特征( y cat y^{\text{cat}} ycat)。
    • 卷积融合:引入可学习滤波器降维( y can = y cat ⊙ f + b y^{\text{can}} = y^{\text{cat}} \odot f + b ycan=ycatf+b)。
    • 双线性融合:捕获通道间交互( y bil = ∑ i , j y i j cat ⊗ y i j can y^{\text{bil}} = \sum_{i,j} y_{ij}^{\text{cat}} \otimes y_{ij}^{\text{can}} ybil=i,jyijcatyijcan)。
  3. 自注意力机制
    • 新型能量函数 Cosed 结合余弦相似度(CS)与欧氏距离(ED):
      Cosed ( q , k ) = ∑ q ( n ) ⋅ k ( n ) ⋅ ∑ ( q ( n ) − k ( n ) ) 2 ∣ q ∣ ⋅ ∣ k ∣ \text{Cosed}(q,k) = \frac{\sum q(n) \cdot k(n) \cdot \sqrt{\sum (q(n)-k(n))^2}}{|q| \cdot |k|} Cosed(q,k)=qkq(n)k(n)(q(n)k(n))2
    • Maxwell-Boltzmann分布 替代Softmax,解决概率分布过度平滑问题。
  4. 动量优化:加速收敛并避免局部最优。

实验结果

10个多视图数据集(图像+文本)上验证,显著优于基线:

数据集ACC提升关键基线对比
MNIST98.57%优于EDCN (98.50%)
Fashion-MNIST70.57%优于DEMVC (78.99%)
REUTERS-10K83.41%优于DCP-DEC (80.33%)
Cora (图数据)73.10%优于DCP-DEC (66.82%)

可视化分析(图3):

  • MDEC的t-SNE可视化显示更清晰的簇间分离(如Cornell、Texas数据集)。
    消融实验(表7):
  • 移除自注意力(MDEC-ATT):REUTERS-10K的ACC下降8.48%。
  • 移除动量(MDEC-MOM):收敛速度下降,目标函数震荡加剧(图4)。

算法实现细节

流程(Algorithm 1)
  1. 多视图嵌入学习
    • 图像数据:按通道拼接特征( y i m cat = cat ( 3 , x n i , x n j ) y_{im}^{\text{cat}} = \text{cat}(3, x_n^i, x_n^j) yimcat=cat(3,xni,xnj))。
    • 文本数据:沿维度拼接( y t x cat = cat ( 2 , x n i , x n j ) y_{tx}^{\text{cat}} = \text{cat}(2, x_n^i, x_n^j) ytxcat=cat(2,xni,xnj))。
    • 卷积融合降维后,双线性融合捕获跨通道交互。
  2. 自注意力计算
    • 以解码器输出为 Query,编码器特征为 Key
    • Cosed 函数计算能量得分 e e e,映射为注意力权重 α \alpha α
    • 生成上下文向量 c = ∑ α i v i c = \sum \alpha_i v_i c=αivi
  3. 深度聚类
    • 初始化聚类中心(K-means)。
    • 迭代更新:
      • 计算软分配 q i j = ( 1 + ∥ z i − μ j ∥ 2 ) − 1 ∑ j ( 1 + ∥ z i − μ j ∥ 2 ) − 1 q_{ij} = \frac{(1 + \|z_i - \mu_j\|^2)^{-1}}{\sum_j (1 + \|z_i - \mu_j\|^2)^{-1}} qij=j(1+ziμj2)1(1+ziμj2)1
      • 更新目标分布 p i j = q i j 2 / ∑ i q i j ∑ j ( q i j 2 / ∑ i q i j ) p_{ij} = \frac{q_{ij}^2 / \sum_i q_{ij}}{\sum_j (q_{ij}^2 / \sum_i q_{ij})} pij=j(qij2/iqij)qij2/iqij
超参数设置
  • 动量系数 α = 0.9 \alpha = 0.9 α=0.9,学习率 ϵ = 1 0 − 3 \epsilon = 10^{-3} ϵ=103
  • 聚类损失权重 β = 0.1 \beta = 0.1 β=0.1
  • 编码器/解码器层数与视图数相同(避免过深导致计算开销)。

局限与未来工作

  • 计算速度:注意力机制增加训练时间(未来将优化评分函数)。
  • 模糊数据处理:未处理不精确/不一致视图信息(未来结合模糊理论)。
  • 参数敏感性 β \beta β 需手动调整(未来研究自适应加权)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Christo3

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值