lstm 做多分类loss完全不下降_技术动态 | 多模态学习调研 (附完整PPT)

本文介绍了多模态情感分析的VistaNet模型,通过Word到Sentence,再到Document的层次处理,以及Image representation attention,进行情感评分预测。同时,探讨了在Community QA中如何利用Visual Question Answering模型提升多模态问答平台的效果,并提出Learning Global Image Feature Weight和Grounding Features的训练策略。此外,还讨论了用于推荐系统的多模态评论生成方法,该方法结合用户、物品和图像信息生成预测评分和评论文本。最后,提到了肖仰华教授关于知识图谱的新教材即将出版。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

多模态机器学习指的就是在机器学习中用上不同形式的数据,如今比较常见的有文本、图像、音频数据。在多模态机器学习中,多模态数据的表示、多模态数据的融合,是研究中绕不开的两点。除此之外,还有多模态数据的对齐、多模态数据的转化等研究问题。本文针对机器学习领域会议在2019年针对多模态课题的研究做了简单的调研,下表是各会议中录用的多模态论文的一个统计,这里仅统计了在论文题中显示地指出了“MultiModal”的论文,还有更多的论文(尤其是CV领域)虽然没有显示地指出多模态,但早已经用到了多种数据模态。

536721d34813eb172f6fb6501e9126b7.png

接下来将对其中的四篇做了详细地介绍,其中所用的方法对上述四个问题都有一定的借鉴意义。

VistaNet: 多模态情感分析

论文:VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis

论文地址:https://www.aaai.org/ojs/index.php/AAAI/article/view/3799

本文针对情感分析问题的解决给出了一种用attention进行多模态数据融合的方式。VistaNet引入图像信息,针对Yelp.com上的评论数据进行五级评分预测。将图像信息作为attention加入到模型中,增强了模型针对评论的情感分析的能力。模型的结构图如下:

9fdc10613b75d715885ef1ce47ff0818.png

模型可大致分为三层:

  • 第一层:Word representation -> Sentence representation

对句子 i 中的所有词使用预训练的词向量模型获得词的向量表示,经过双向RNN(GRU cell)获得每个 RNN cell 的两个方向的隐状态,拼接构成该句在所有 time step 的  cf36f51f6005507aa01d9e8dd2cd6c0c.png。又不同的词在句子中的重要程度是不一样的,故对 cf36f51f6005507aa01d9e8dd2cd6c0c.png 使用 soft attention ,计算每个词的权重  85fe9476ddb2533e354151d3dbf9b33a.png,最后对所有的  cf36f51f6005507aa01d9e8dd2cd6c0c.png 加权求和,得到句子的表示  2aec8f092ace7be07dd0a50b82106ac3.png

21f12b1279267571adf1243330c35996.png

  • 第二层:Sentence representation ->Image representation attention-> Document representation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值