前言
多模态机器学习指的就是在机器学习中用上不同形式的数据,如今比较常见的有文本、图像、音频数据。在多模态机器学习中,多模态数据的表示、多模态数据的融合,是研究中绕不开的两点。除此之外,还有多模态数据的对齐、多模态数据的转化等研究问题。本文针对机器学习领域会议在2019年针对多模态课题的研究做了简单的调研,下表是各会议中录用的多模态论文的一个统计,这里仅统计了在论文题中显示地指出了“MultiModal”的论文,还有更多的论文(尤其是CV领域)虽然没有显示地指出多模态,但早已经用到了多种数据模态。VistaNet: 多模态情感分析
论文:VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis
论文地址:https://www.aaai.org/ojs/index.php/AAAI/article/view/3799
本文针对情感分析问题的解决给出了一种用attention进行多模态数据融合的方式。VistaNet引入图像信息,针对Yelp.com上的评论数据进行五级评分预测。将图像信息作为attention加入到模型中,增强了模型针对评论的情感分析的能力。模型的结构图如下:模型可大致分为三层:
第一层:Word representation -> Sentence representation





第二层:Sentence representation ->Image representation attention-> Document representation