基于领域自适应的图像情感识别技术
1. 研究背景与贡献
在图像情感识别(IER)领域,目前存在着一些挑战,如缺乏足够的情感标注图像数据集和预训练的 IER 模型,以及现有方法在提取图像中与情感相关信息时的局限性。为了解决这些问题,提出了一种创新的技术,该技术能够识别包含人脸、非人脸和非人类元素的通用图像中的情感。具体做法是,通过图像字幕生成图像描述,并重新训练文本情感识别(TER)模型,将字幕分类为适当的情感类别,由于图像字幕与图像存在一对一的映射关系,因此将字幕预测的情感标签视为图像的情感标签,最终实现了 59.17% 的情感分类准确率。
2. 相关工作
- 基于特征的语义图像分析 :早期的 IER 主要使用形状、边缘和颜色等低级特征。后来发现,像光学平衡和构图这样的中级特征也对图像美学有贡献,也被应用于图像情感分类。还有工作利用图像的语义内容进行情感分析。但这些方法使用的手工特征难以涵盖所有低级、中级特征和图像语义。
- 基于维度和类别的视觉情感分类 :IER 方法可以基于情感维度和类别进行分类。维度情感空间(DES)方法使用效价 - 唤醒 - 控制情感空间来描述和表示各种情感状态;而基于类别情感状态(CES)的方法将计算结果映射到离散的情感类别,由于其更易于理解,因此更常用。本文提出的方法基于 CES,将给定图像分类为快乐、悲伤、仇恨和愤怒等情感类别。
- 基于深度学习的图像情感识别方法 :卷积神经网络(CNN)在对象分类、图像识别等计算机视觉任务中取得了成功,它能够以端到端的方式提取视觉特征,无需人工干预。