解决面部表情识别中的标签模糊问题与平滑学习

### 解决面部表情识别中的标签模糊问题与平滑学习在当今的科技发展中，面部表情识别（FER）在人机交互领域扮演着至关重要的角色。然而，由于面部表情存在显著的类内差异、类间相似性以及表情本身的模糊性，准确学习FER特征并非易事。本文将深入探讨如何解决这些问题，以及所提出的创新方法。 #### 面部表情识别的挑战面部表情识别一直是计算机视觉和人机交互领域的重要研究课题。过去几年，该领域吸引了大量关注，科学家们致力于开发能够自动感知人类情感状态的系统和机器人。但在实际应用中，实现准确的面部表情识别仍然面临诸多挑战。其中，标签模糊问题是主要挑战之一。一方面，某些表情本身就很相似，难以区分，例如“快乐”和“惊讶”；另一方面，不同人进行标注时可能会导致标签不一致。这使得模型可能学习到无用的面部表情特征，从而降低了识别的准确性。目前，基于深度学习技术的FER任务主要受数据、模型和标签三个要素影响。虽然研究人员在模型和数据方面取得了显著进展，但对标签的关注还不够。例如，Xu等人提出的Graph Laplacian Label Enhancement（GLLE）算法，由于其对特征空间拓扑的刚性假设，不适用于大规模数据集。 #### 解决方案：Attentive Cascaded Network（ACN）为了解决标签模糊问题，本文提出了Attentive Cascaded Network（ACN）方法。该方法的主要贡献包括： - **级联网络**：通过级联网络以不同方式获取更可靠的特征。具体来说，使用两个分支分别预测积极表情（快乐、惊讶、正常）和消极表情（愤怒、厌恶、恐惧和悲伤），将低频的消极样本合并，使训练数据集更加平衡。同时，采用模型集成策略，将HRNet、Swin - S和IResNet - 152作为骨干网络，这些架构差异显著，能够提取不同的特征，避免整个框架对一些噪声特征的过拟合。 - **HRNet**：持续保持高分辨率表示，并在不同分辨率之间交换特征，以获取丰富的语义特征。 - **Swin Transformer**：使用带移位窗口的注意力机制来研究与其他位置的关系，通过池化或路径合并层降低特征图的空间分辨率，降低处理成本并拓宽感知野。 - **IResNet - 152**：同样使用池化或路径合并层降低特征图的空间分辨率。 - **平滑中心损失**：中心损失是一种广泛使用的深度度量学习技术，其目标是减少深度特征与其对应类中心之间的平方和。但并非特征向量中的所有元素都对分类有用，因此提出了平滑中心损失方法。通过为每个维度的欧几里得距离分配权重，过滤掉无关特征，选择性地实现嵌入空间中相关信息的类内紧凑性和类间分离。平滑中心损失的数学表示如下： - 中心损失公式： \[ L_C = \frac{1}{2n} \sum_{i = 1}^{n} \sum_{j = 1}^{m} \| x_{ij} - c_{y_{ij}} \|_2^2 \] - 平滑中心损失公式： \[ L_{SC} = \frac{1}{2n} \sum_{i = 1}^{n} \sum_{j = 1}^{m} \alpha_{ij} \otimes \| x_{ij} - c_{