在科技迅猛发展的今天,我们不仅在追求更强大的计算能力和更高的精度,还希望我们的机器能够理解和回应我们复杂的情感世界。设想一下,当你面对挫折时,设备不仅能识别你的情绪,还能以一种富有同情心和洞察力的方式作出反应。这不仅是一种技术上的突破,更是一种深刻的人机互动变革。
本文所涉及所有资源均在地址可获取
目录
概述
随着近年来社交媒体的快速增长,社交媒体上的用户生成内容(例如视频)的量大幅增加。不同模态的自动情感分析有利于人机交互,并吸引了大量的研究兴趣。多模态情感分析(MSA)旨在捕获和整合来自不同相关模态的情感信息,以预测说话者的情感状态或倾向。通常,我们可以从视频中获得三种形式:视觉,声学和文本。情感分析是一个重要的研究领域,旨在从人类话语中提取和融合情感信息。由于人类情感的多样性,多模态分析往往比单一模态分析更准确。为了补充相关模态之间的信息,一种有效的方法是执行跨模态交互。最近,基于transformer的框架已经显示出强大的捕获长范围依赖关系的能力,从而引入了几种基于transformer的多模态处理方法。
这篇文章我复现了一篇经典情感计算的论文 ‘TensorFormer: ATensor-Based Multimodal Transformer for Multimodal Sentiment Analysis and Depression Detection’,并加入其他模块进行了优化,以及不同的特征提取方法,获得了不错的效果,主要贡献如下:
1)提出TesnorFormer,一种新的基于张量的多模态Transformer,用于MSA任务。与以往的多模态工作相比,TensorFormer可以更有效地交换全局跨模态信息
2)提出了一个注意力张量,基于张量的跨模态注意力机制。注意张量不仅考虑了不同模态的特点,而且同时与所有相关模态进行交互
3)个人采用了不同的特征提取方式 – SentiLARE
4)加入了Multi-head CrossAttention模块和LSTM模块,增强了交互和模态时间信息的提取