论文解读:Dynamic Memory Networks for Visual and Textual Question Answering

本文介绍了一种改进的动态记忆网络模型,在视觉问答任务中表现优异。通过优化输入模块,模型能更好地处理文本和图像信息,引入双向GRU和VGG-19特征提取,增强记忆网络的表示能力。提出基于注意力的GRU模型,提升模型在VQA任务中的推理能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这是关于VQA问题的第六篇系列文章。本篇文章将介绍论文:主要思想;模型方法;主要贡献。有兴趣可以查看原文:Dynamic Memory Networks for Visual and Textual Question Answering

1,主要思想:

这篇文章是从动态记忆网络改进的:Ask Me Anything: Dynamic Memory Networks for Natural Language Processing,可以查看另一篇文章对记忆网络的的介绍:记忆网络,大家想深入理解这篇文章,建议先看看动态记忆网络的论文,或者点开记忆网络的连接。这篇论文主要修改了输入部分,对文本和图像都做了修改,让记忆网络在问答问题中有更好的表现。

2,模型结构

动态记忆网络由四部分组成:Input Module、Question Module、Episodic Memory Module、Answer Module。这篇文章主要介绍修改部分:Input Module,与Episodic Memory Module


a.Input Module for Text QA:文本输入

之前的只采用单项GRU网络处理文本输入,这样会减少输入的信息,因为只考虑了一个方向的影响,而且能考虑的长度有限。下面介绍这篇文章的处理方式:由两部分组成:
在这里插入图片描述

  • sentence reader:使用一个sentence reader专门用来将word embedding转化为sentence embedding。
    在这里插入图片描述

  • fusion layer:采用双向RGU融合每个句子的信息
    在这里插入图片描述

b.Input Module for VQA

先使用VGG-19提取图像的特征图,然后把特征图使用激活函数为tanh的线性层映射到同question同一空间的向量,最后使用双向GRU获取信息。由三部分组成:
在这里插入图片描述

  • Local region feature extraction:使用VGG-19 model的最后输出作为图像特征。
  • Visual feature embedding:把图像特征映射到文本特征一个维度。
  • Input fusion layer:不变。
c.The Episodic Memory Module

这里是这篇文章重要的部分,迭代推理过程
在这里插入图片描述

  • gate function:注意力权重计算公式。
    在这里插入图片描述

  • 注意力方式一:Soft attention,也就是单纯的加权求和。
    这种办法的优势在于计算简单,可以选择重要的信息。没有考虑位置信息,会损失一些信息。
    在这里插入图片描述

  • 注意力方式二:Attention based GRU,把权重加到GRU内部。
    在这里插入图片描述
    正常的GRU计算过程:
    在这里插入图片描述
    u的功能是考虑保留多少信息,作者将u修改成权重g。
    在这里插入图片描述

  • 因此,这里的计算过程为:
    在这里插入图片描述

  • Episode Memory Updates:记忆内容的更新。这里也有所不同,采用ReLU进行变换:
    在这里插入图片描述

3,贡献

  • 本文对输入进行改良,可以捕获跟多的信息。
  • 提出了基于attention的RGU模型。
  • 把记忆网络用于vqa。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值