来gongzhonghao【图灵学术计算机论文辅导】,快速拿捏更多计算机SCI/CCF发文资讯~
推荐一个Transformer时代最香的研究方向:多模态图像融合!
从Cell子刊综述到CVPR 2025的GeminiFusion、BSAFusion、MYGO三连击,全都在用Transformer把RGB、深度、LiDAR、文本甚至医学影像玩出花,既刷新SOTA又把FLOPs砍到线性,顶会顶刊的高分录用和GitHub疯狂star足以说明热度。
如果你正准备上车,别再单纯堆结构,医疗或遥感数据请盯“轻量化+配准-融合联动”,本文精心整理了 3 篇前沿论文,旨在助力大家洞悉前沿动态、把握研究思路。
BSAFusion: A Bidirectional Stepwise Feature Alignment Network for Unaligned Medical Image Fusion
方法:这篇文章提出BSAFusion,用一个单阶段网络同时解决未对齐多模态医学图像的配准与融合难题。
创新点:
-
设计共享编码器的单阶段框架,把配准无缝嵌入融合过程,避免额外模型带来的复杂度激增。
-
提出“无模态差异特征表示”MDF-FR,通过跨模态注入全局头信息显著削弱模态差异,保留互补细节。
-
基于向量位移路径无关性,构建双向逐步变形场预测BSFA,逐级逼近大跨度形变,显著提升对齐精度与鲁棒性。
总结:先用Restormer+Transformer抽取分层特征并用MDF-FR消除模态差异,再借助BSFA从正反两向分五步估计变形场,最后由MMFF模块将变形场作用于特征完成对齐并以多损失优化实现高质量融合。
GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer
方法:这篇文章直击跨模态 Transformer 的痛点,用像素级“双子融合”让多模态视觉模型在保持单模态效率的同时碾压传统交换与交叉注意。
创新点:
-
首次实验揭露交换式融合因信息丢失而始终劣于交叉注意,提出无条件全交换反而更优的反直觉发现。
-
设计 GeminiFusion 模块,仅对空间对齐的像素做轻量级交叉注意,复杂度从 O(N²) 直降到 O(N),FLOPs 压缩 99.2%。
-
引入层自适应噪声与关系判别器,动态平衡自注意与跨注意,使模型可插拔到任意 ViT/Swin 主干并继承 ImageNet 预训练权重。
总结:网络在四阶段编码器每层先用共享权重的自注意提取单模态特征,随后用 GeminiFusion 对同位像素做双向交叉注意并注入层相关噪声,解码阶段将多尺度融合特征通过轻量 MLP 头统一输出,实现语义分割、图到图翻译与 3D 检测的多任务全面领先。
纠结选题?导师放养?投稿被拒?对论文有任何问题的同学,欢迎来gongzhonghao【图灵学术计算机论文辅导】,获取顶会顶刊前沿资讯~
Tokenization, Fusion, and Augmentation: Towards Fine-grained Multi-modal Entity Representation
方法:这篇文章跳出粗粒度多模态实体嵌入的窠臼,提出 MYGO 框架以离散化“token-级”语义单元补齐多模态知识图谱,刷新 19 条 SOTA 记录。
创新点:
-
首次将图文模态信息离散为可学习的细粒度 token 序列,并用跨模态实体编码器实现深度交互,显著保留细节语义。
-
设计层级三元组建模架构,由实体编码器、上下文关系编码器和 TuckER 解码器协同工作,在统一 Transformer 中同时捕获局部 token 与全局结构信号。
-
引入多尺度细粒度对比学习,利用同一实体的全局/局部视图为正样本,在批次内动态采样负样本,进一步提升实体表征的特异性与鲁棒性。
总结:MYGO 先用 BEIT/BERT 把实体图文内容量化为高频 token 并线性投影到共享空间,随后通过跨模态实体编码器聚合 token 并加入结构嵌入生成实体表示,使模型在 DB15K、MKG-W、MKG-Y 上均取得新 SOTA,同时 token 数量可控、效率与基线持平。
关注gongzhonghao【图灵学术计算机论文辅导】,快速拿捏更多计算机SCI/CCF发文资讯~