PR-2023《Auto-attention mechanism for multi-view deep embedding clustering》_multi-scale attention and loss penalty mechanism f-CSDN博客

本文链接：https://blog.csdn.net/weixin_41552975/article/details/149218166

论文基础信息

发表时间与期刊：2023年发表于《Pattern Recognition》（卷143，文章ID 109764）
作者单位：西南交通大学、山西大学、印度KL大学等
DOI: 10.1016/j.patcog.2023.109764

核心思想

提出一种多视图深度嵌入聚类（MDEC）模型，解决传统多视图聚类方法的两个瓶颈：

计算效率：传统方法需为每个视图独立训练神经网络，计算成本随视图数量线性增长。
信息融合不足：现有方法在训练阶段难以有效整合多视图的互补信息。
创新点：

三重融合机制：串联（Concatenation）、卷积（Convolutional）、双线性（Bilinear）融合，充分捕获视图间交互。
自注意力机制（Auto-Attention）：基于Maxwell-Boltzmann分布设计新型能量函数，解决梯度消失问题并增强特征相关性。
统一框架：联合优化视图嵌入、融合、聚类，避免分阶段训练的误差累积。

目标函数

目标函数整合四部分损失：
$\min \left\{ \underbrace{\sum_{i=1}^{n} \|X_i - a_c f(v_i)\|_F^2}_{\text{自编码器损失}} + \underbrace{\sum_{i=1}^{n} \|v_i - a_d g(X_i)\|_F^2}_{\text{自注意力损失}} + \beta \left( \underbrace{\sum_i \sum_{j \in N_i(t)} \text{sim}(x_i, x_j) \|z_i - z_j\|^2 + \sum_i \sum_j p_{ij} \log \frac{p_{ij}}{q_{ij}}}_{\text{聚类损失}} \right) \right\}$
关键变量：

$a_c f$ / $a_d g$ ：编码器/解码器激活函数
$v_i$ ：视图 $i$ 的隐层表示
$q_{ij}$ / $p_{ij}$ ：软分配概率与目标分布（见DEC [19]）
$\beta$ ：聚类损失权重

优化过程

预训练：独立训练各视图的自编码器，初始化权重 $W_E^0$ , $W_D^0$ 。
动量更新：
- 速度更新： $\leftarrow \alpha v - \epsilon g$
- 参数更新： $\theta \leftarrow \theta + v$
  其中 $\alpha \in [0,1]$ 为动量系数， $\epsilon$ 为学习率， $g$ 为梯度。
交替优化：
- 固定自编码器权重，更新聚类中心 $\mu_j$ 和分配 $q_{ij}$ 。
- 固定聚类分配，通过反向传播更新网络参数。

主要贡献

统一多视图训练框架：单网络处理多视图，降低计算复杂度（vs 传统单视图单网络）。
三重融合层：
- 串联融合：直接拼接特征（ $y^{\text{cat}}$ ）。
- 卷积融合：引入可学习滤波器降维（ $y^{\text{can}} = y^{\text{cat}} \odot f + b$ ）。
- 双线性融合：捕获通道间交互（ $y^{\text{bil}} = \sum_{i,j} y_{ij}^{\text{cat}} \otimes y_{ij}^{\text{can}}$ ）。
自注意力机制：
- 新型能量函数 Cosed 结合余弦相似度（CS）与欧氏距离（ED）：
  $\text{Cosed}(q,k) = \frac{\sum q(n) \cdot k(n) \cdot \sqrt{\sum (q(n)-k(n))^2}}{|q| \cdot |k|}$
- 用 Maxwell-Boltzmann分布 替代Softmax，解决概率分布过度平滑问题。
动量优化：加速收敛并避免局部最优。

实验结果

在 10个多视图数据集（图像+文本）上验证，显著优于基线：

数据集	ACC提升	关键基线对比
MNIST	98.57%	优于EDCN (98.50%)
Fashion-MNIST	70.57%	优于DEMVC (78.99%)
REUTERS-10K	83.41%	优于DCP-DEC (80.33%)
Cora (图数据)	73.10%	优于DCP-DEC (66.82%)

可视化分析（图3）：

MDEC的t-SNE可视化显示更清晰的簇间分离（如Cornell、Texas数据集）。
消融实验（表7）：
移除自注意力（MDEC-ATT）：REUTERS-10K的ACC下降8.48%。
移除动量（MDEC-MOM）：收敛速度下降，目标函数震荡加剧（图4）。

算法实现细节

流程（Algorithm 1）

多视图嵌入学习：
- 图像数据：按通道拼接特征（ $y_{im}^{\text{cat}} = \text{cat}(3, x_n^i, x_n^j)$ ）。
- 文本数据：沿维度拼接（ $y_{tx}^{\text{cat}} = \text{cat}(2, x_n^i, x_n^j)$ ）。
- 卷积融合降维后，双线性融合捕获跨通道交互。
自注意力计算：
- 以解码器输出为 Query，编码器特征为 Key。
- 用 Cosed 函数计算能量得分 $e$ ，映射为注意力权重 $\alpha$ 。
- 生成上下文向量 $\sum \alpha_i v_i$ 。
深度聚类：
- 初始化聚类中心（K-means）。
- 迭代更新：
  - 计算软分配 $q_{ij} = \frac{(1 + \|z_i - \mu_j\|^2)^{-1}}{\sum_j (1 + \|z_i - \mu_j\|^2)^{-1}}$
  - 更新目标分布 $p_{ij} = \frac{q_{ij}^2 / \sum_i q_{ij}}{\sum_j (q_{ij}^2 / \sum_i q_{ij})}$