1.摘要
卷积神经网络(CNN)和生成对抗网络(GAN)等基于方法在图像融合领域取得了显著的性能。然而,这些方法主要集中于提取局部特征,对学习全局依赖关系关注较少。近年来,基于Transformer的融合方法凭借其出色的竞争性长期依赖建模能力取得了令人瞩目的成就,但这种方法同时处理长期对应关系和短期特征,可能导致全局-局部信息交互不足。为此,我们提出了一种解耦的全局-局部红外和可见光图像融合Transformer(DGLT-Fusion)。DGLT-Fusion将全局-局部信息学习解耦为Transformer模块和CNN模块。长期依赖关系由一系列Transformer块(全局解耦Transformer块)建模,而短期特征则由局部解耦卷积块提取。此外,我们设计了Transformer稠密连接以保留更多信息。这两个模块交叉堆叠,使我们的网络更加完整地保留纹理和细节信息。此外,比较实验结果表明,DGLT-Fusion的性能优于现有的方法。
2.引言
近年来,Transformer在计算机视觉领域取得了令人瞩目的成就。Vibashan等人应用Transformer构建了一个空间变换机制(Spatio-Transformer融合机制)。他们通过一个空间CNN分支和一个Transformer分支同时处理全局和局部特征。尽管这些方法取得了有希望的性能,仍然存在一些缺点:(1)在基于CNN和基于GAN的方法中,源图像中的长期依赖性被忽视,因为卷积神经网络专注于捕捉局部特征。这可能会导致一些非平凡的全局纹理信息丢失,从而影响融合结果。(2)基于Transformer的方法具有复杂的融合网络,同时处理长期对应关系和短期特征。这可能导致全局-局部信息交互不足。
为了解决上述挑战并受到Transformer的启发,我们提出了一种解耦的全局-局部红外和可见光图像融合Transformer(DGLT-Fusion)。与侧重于提取局部特征的CNN和GAN方法不同,我们将融合网络解耦为全局
解耦Transformer模块和局部解耦卷积模块,分别对长期依赖性和短期特征进行建模。这两个模块以交织的方式堆叠在一起,使得长期依赖性和短期特征可以更彻底地整合,从而产生具有丰富细节背景信息的更好融合结果(见图1)。此外,受到DenseNet的启发,我们在全局解耦Transformer模块内设计了稠密连接,以避免由网络复杂性引起的长期依赖性信息丢失。
该工作的主要贡献可以总结如下:
- 提出了一种解耦的全局-局部红外和可见光图像融合Transformer(DGLT-Fusion)。通过将长期依赖性与短期特征相结合,融合结果在细节纹理信息方面得到了改善。DGLT-Fusion将全局-局部信息学习解耦为Transformer模块和CNN模块。全局解耦Transformer块建模了长期依赖性,而局部解耦卷积块提取了短期特征。这两个模块以交织的方式堆叠,使得我们的网络具有更好的全局-局部信息交互。
- 提出的方法在全局解耦Transformer模块内设计了稠密连接,以避免由网络复杂性引起的长期依赖性信息丢失。
- 对DGLT-Fusion进行了定性和定量的八种现有融合方法的评估,实验结果表明DGLT-Fusion达到了更好的性能。
3.方法
3.1 Framework overview
所提出的解耦的全局-局部红外和可见光图像融合Transformer(DGLT-Fusion)是一个端到端的融合网络,旨在生成一个包含红外目标和纹理细节的融合图像。令IiI_iIi 表示红外图像,IvI _vIv 表示可见光图像。DGLT-Fusion 将 IiI_iIi 和 IvI_vI