（2023ArXiv）Exchanging-based Multimodal Fusion with Transformer-CSDN博客

本文提出了一种新的深度多模态融合方法MuSE，将基于交换的思想从视觉领域扩展到文本视觉融合。通过设计图像字幕任务和文本到图像生成任务，MuSE将不同模态的嵌入拉到同一空间并进行信息交换，有效解决模态间空间差异问题。实验结果证明了MuSE在MNER和MSA任务中的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 介绍

早期的深度多模态融合方法主要分为两类:基于聚合的方法和基于对齐的方法。

基于聚合的方法首先通过子网络表示每种模态，然后使用各种运算符聚合不同的表示，例如连接(Zeng等人，2019)、平均(Hazirbas等人，2016)和自关注(V alada等人，2020)。此外，基于对准的方法(Colombo等人，2021;Song et al .， 2020)采用正则化损失来对齐不同子网络的嵌入，而不需要显式组合。

最近，提出了一种新的基于交换的方法CEN (Wang et al .， 2020)来处理模态内处理和模态间融合之间的权衡。通过利用批归一化(Batch Normalization, BN)的比例因子(Ioffe and Szegedy, 2015)作为每个通道的重要性度量，CEN将一种模态中因子值接近于零的通道替换为另一种模态中通道的平均值。然而，该方法是专门为视觉融合设计的，信道交换不能直接应用于其他多模态场景，如文本视觉融合。主要有两个挑战。一方面，CEN隐含地假设两种模态在同一个低维嵌入空间中表示，而文本和图像的模态彼此距离较远，通常对应于不同的空间。另一方面，交换模型是在CNN图像通道中，并不适用于文本，因为文本是单词的序列。

因此，一个研究问题出现了:我们能否开发一个有效的基于交换的神经网络模型，融合文本和视觉的模式?

本文提出了一种基于交换的多模态融合方法，即MuSE，弥补了基于交换的文本视觉多模态融合方法在文本视觉多模态融合领域的空白。我们在图1中总结了现有多模态融合方法与我们的方法的比较。

为了解决不同数据模式对应不同低维空间的问题，我们首先对文本和图像分别进行低维投影，然后提出两个任务将它们的嵌入拉到同一个空间中。具体来说，受文本可以是图像的字幕，图像也可以从文本生成的启发，我们特别设计了一个图像字幕任务和一个文本-图像生成任务来捕获文本和图像之间的相关性。我们用两个编码器-解码器的架构实现这个过程，其中编码器用于文本(图像)投影，解码器用于图像(文本)生成。两个解码器共同对编码器产生的嵌入进行正则化，并将它们拉入同一空间。

贡献如下:

• 我们将基于交换的方法从视觉融合推广到文本视觉融合，提出了一种新的基于交换的MuSE模型。

• 我们使用图像字幕任务和文本到图像生成任务来捕获文本和图像之间的相关性，它们共同正则化多模态嵌入并将它们拉入同一空间。我们进一步设计了crosstrtransformer，实现文本和图像之间的知识交换。

• 我们进行了广泛的实验，将MuSE与其他最先进的MNER和MSA任务进行比较。实验结果表明了该方法的有效性。

2. 相关工作

2.1 Deep Multimodal Fusion

重点是这篇，针对多视觉模态，提出了一种基于交换的方法CEN (Wang et al .， 2020)，该方法可以有效地处理模态间处理和模态内融合之间的权衡。但也存在一些扩展(Wang et al .， 2021b;Jiang et al .， 2022)对CEN来说，所有这些方法都局限于通道交换和视觉视觉融合。本文对这篇文章进行了拓展。

A.1 Multimodal Named Entity Recognition(MNER)

A.2 Multimodal Sentiment Analysis (MSA）

B Datasets

B.1 MNER

B.2 MSA

C Efficiency Analysis

3. 方法

作者提出了一个深度多模态融合模型MuSE。如图2所示，MuSE主要由四个功能组件组成，我们用①-④标记它们。所述组件①用于将输入文本和图像投影到低维空间中，所述组件包括文本编码器和图像编码器。考虑到多模态数据可能被映射到不同的空间中，我们进一步提出了两个嵌入正则器(参见组件②和③)来将多模态输入的嵌入拉到同一空间中。将这两个正则化器作为解码器，分别实现文本到图像的生成任务和图像字幕任务。在生成多模态输入的嵌入后，我们将它们馈送到组件④，这是一个基于transformer encoder的模块，称为cross transformer， cross transformer进行多模态信息交换，并最终从多模态生成融合嵌入。
在这里插入图片描述

3.1 Low-dimensional Projection and Embedding Regularization

在基于交换的融合之前，使用两个编码器-解码器的架构将文本(T)和视觉(I)模态的输入投影到相同的嵌入空间中。

低维投影：首先使用两个独立的编码器分别将输入的文本和图像编码为低维嵌入:
在这里插入图片描述

这里文本编码器可以是Bert，图像编码器可以是ResNet。T_e、I_e形状为n×d，n是文本长度，d是嵌入维度。

嵌入正规化
由于输入是两种模态，它们通常通过公式(2)投影到不同的空间中。因此，对于多模态的信息交换，我们首先需要将这些嵌入到同一空间中。根据经验，我们观察到文本可以是图像的标题，而图像可以从文本生成，如图3所示。为了捕获文本和图像之间的相关性，作者特别设计了一个图像字幕任务和一个文本到图像的生成任务。这两个任务由两个解码器实现，它们共同正则化来自编码器的嵌入。对于图像字幕任务，编码器将图像嵌入作为输入并生成字幕文本，而对于文本到图像生成任务，则相反。整个过程总结如下。首先，与(Zhang et al .， 2021b)相似，为了增强模型的泛化能力，在文本和图像的嵌入中加入随机噪声：
在这里插入图片描述
其中N_t(0,1)和N_i(0,1)分别为文本和视觉模态的高斯随机噪声。
然后我们使用两个解码器分别生成图像I和文本T:

其中，ImageDecoder可以是典型的文本到图像生成模型(例如PixelCNN (V and den Oord等人，2016))，TextDecoder可以是典型的图像字幕模型(例如NIC (Vinyals等人，2015))。基于生成的图像和文本与输入的图像和文本进行对比，分别构造了文本到图像的生成损失L_ti和图像字幕损失L_it。这两种损失对编码器生成的文本和图像的嵌入进行了正则化，可以看作是后面将要介绍的主要预测任务的辅助任务。

在这里插入图片描述

3.2 Multimodal Exchanging

在Transformer的基础上，提出了cross transformer，它使用两个具有共享参数的Transformer编码器来学习文本和视觉模态的嵌入，并在多模态之间进行信息交换。交叉变压器的整体流水线如图2中组件④所示。我们首先将 cls添加到文本编码器和图像编码器生成的嵌入的开头，这些嵌入被作为cross transformer的输入。之后，考虑到两个输入向量的全局上下文信息应该先学习然后交换，cross transformer将其浅层设置为常规Transformer编码器层，然后是多个交换层。当多模态融合结束时，交换过程停止。

为了实现这一目标，cross transformer引入了两个超参数µ和η来分别控制起始层和结束层，以进行信息交换。在每个交换层中，灵感来自(Caron et al, 2021;Liang等人，2022)，我们在一个模态中选择具有最小关注分数的标记，并将其嵌入向量替换为另一个模态中所有标记的平均嵌入。这里以cls作为参考，因为它生成句子级嵌入。
现在头部加入cls token，维度变成n+1×d。
在这里插入图片描述
V_cls（t₀）、V_cls（i₀）是初始cls嵌入。经过µ规则的Transformer编码器层，我们可以得到更新的嵌入T_e(µ)和I_e(µ)。在μ +1层，进入交换层，它由三个子模块组成。第一个子模块计算公式(7)中的多头自关注，生成文本的中间嵌入 T_e(µ+ 1)和图像的中间嵌入I_e(µ+ 1)。第二个子模块为两种模式选择具有最小注意分数的标记的θ-比例，并执行信息交换。

设选取T_e(µ+1)的第k行对应的token，其嵌入向量更新为:
在这里插入图片描述
相似的，图像方面：

作者使用残差连接(He et al .， 2016)来减少替换造成的信息丢失。

得到信息交换后，第三子模块将更新后的嵌入矩阵输入到经过层归一化处理的FFN中，得到µ+ 1层的输出嵌入:
在这里插入图片描述

交换过程一直持续到达到预定的端层η。最后将两个变压器的输出嵌入连接到一个全连通网络中，得到最终的融合嵌入矩阵F_e

3.3 Training Objective

最终loss为三个相加
在这里插入图片描述
两个为超参数。

4.Experiments

** 常规设置**
分别使用ResNet (He et al .， 2016)、BERT (Kenton and Toutanova, 2019)、PixelCNN++ (Salimans et al .， 2017)、NIC-Att (Xu et al .， 2015)对ImageEncoder、TextEncoder、ImageDecoder、TextDecoder进行编码。将批大小设置为40，通过对验证集进行小网格搜索[1e-4, 5e5, 1e-5]选择学习率。在ImageEncoder中，输入图像的大小被调整为[224,224]，编码图像的大小被设置为[8,8]。在TextEncoder中，最大序列长度设置为64。在ImageDecoder中，输入图像的大小被调整为[32,32]。在crosstrtransformer中，我们与Transformer编码器保持相同的设置，除了通过验证集上的小网格搜索[0.1,0.2,0.3,0.4]来选择丢弃率。对于损失选择，我们使用CrossEntropy进行MNER预测，MSA预测和图像字幕，并使用离散混合逻辑损失进行文本到图像的生成，如PixelCNN++。对于cls的初始化，我们使用kaim initialization (He et al .， 2015)。我们的框架是基于PyTorch实现的(Paszke et al, 2019)。我们在6个特斯拉V100 gpu上运行所有实验。

实验结果
在这里插入图片描述
消融实验和超参数实验

交叉变压器信息交换比例θ、开始层µ和结束层η的超参数灵敏度分析。