多模态特征融合新范式：Token剪枝+跨域对齐，小模型也能打大仗

计算机SCI论文研究

于 2025-08-28 14:59:51 发布

阅读量713

点赞数 16

CC 4.0 BY-SA版权

分类专栏：论文拆解文章标签：机器学习人工智能算法计算机视觉深度学习论文阅读神经网络

本文链接：https://blog.csdn.net/Tulingxueshu/article/details/150951923

论文拆解专栏收录该内容

40 篇文章

订阅专栏

来gongzhonghao【图灵学术计算机论文辅导】，快速拿捏更多计算机SCI/CCF发文资讯～

今天，为大家推荐一个高性价比、高回报的研究方向：多模态特征融合。从 CVPR、NeurIPS、IEEE TGRS 等顶会顶刊的录用清单看，近半数高分论文都在用这一思路刷新 SOTA。

无论是遥感影像分类、药物-靶点预测，还是视觉语言导航，研究者把图像、序列、图结构甚至深度信号拧成一股绳，用交互注意力或轻量级对齐模块，不仅带来性能跃升，更因通用性强、落地门槛低，已成为投稿与产业化的双红利区！

本文结合最新进展，帮你梳理当下热点，助你高效设计实验：

Interpretable bilinear attention network with domain adaptation improves drug-target prediction

方法：这篇文章提出DrugBAN，通过图卷积网络编码药物分子图、一维卷积网络编码蛋白序列，再经双线性注意力网络显式建模药物-蛋白子结构对的交互强度，最后用条件领域对抗网络对齐跨域分布以提升对新药-新靶的预测能力。

创新点：

首次将双线性注意力机制引入DTI任务，原子-氨基酸级别的成对交互可显式学习并可视化解释。
在药物发现中首次嵌入CDAN条件领域对抗模块，用软标签与联合表示共同对齐源域与目标域分布。
提出基于层次聚类的跨域划分策略，构建真实无重叠的源/目标域，显著降低传统随机划分带来的乐观偏差。

总结：DrugBAN先用GCN和CNN分别提取药物图和蛋白序列的局部特征，随后通过低秩双线性映射计算子结构交互矩阵并用多头注意力进行池化得到联合表示，同时在训练阶段引入CDAN以最小化源域与目标域的分布差异，使模型在仅有无标签目标数据时仍能稳健预测，并在三个基准数据集的域内与跨域设置中均取得最佳性能。

Multimodal Token Fusion for Vision Transformers

方法：这篇文章提出TokenFusion，通过动态剪枝单模态Transformer中的低信息token并以跨模态对齐特征替换，同时在替换后注入残差位置编码保持空间一致性，实现同质或异质模态间的高效融合，而无需重构网络或重调超参数。

创新点：

提出基于token重要性评分的动态稀疏融合策略，使冗余token成为跨模态信息通道。
设计残差位置对齐机制，确保被替换token仍能继承原空间先验，维护几何一致性。
构建通用框架，支持同质共享权值与异质独立权值两种融合范式，可直接复用单模态预训练参数。

总结：TokenFusion以输入自适应的稀疏化token为媒介，将多模态特征按需注入对应位置，通过残差位置编码维系跨模态对齐；该方法在图像翻译、RGB-D分割和点云-图像3D检测上均刷新SOTA，且额外开销极低，为Transformer多模态扩展提供了即插即用的范例。

纠结选题？导师放养？投稿被拒？对论文有任何问题的同学，欢迎来gongzhonghao【图灵学术计算机论文辅导】，获取顶会顶刊前沿资讯~

Multimodal Fusion Transformer for Remote Sensing Image Classification

方法：这篇文章提出Multimodal Fusion Transformer（MFT），将LiDAR、SAR、MSI或DSM等多模态数据编码为外部CLS token，通过多头交叉补丁注意力（mCrossPA）与光谱-空间HSI补丁token交互，在标准Transformer编码器内完成互补信息注入，最终由分类头输出土地覆盖类别。

创新点：

首次把多模态遥感数据显式地作为可学习的CLS token嵌入Transformer，避免高维拼接带来的参数量爆炸。
提出mCrossPA模块，使CLS token与HSI补丁token间进行多头交叉注意，实现跨模态长程依赖建模。
设计像素/通道双路tokenizer，结合Conv3D与HetConv2D轻量化提取器，在保持空间纹理的同时压缩光谱维度。

总结：MFT用CNN先行提取HSI与LiDAR等模态的抽象特征，再将HSI切分为补丁token、LiDAR映射为单通道CLS token，二者加位置编码后送入含mCrossPA的Transformer，四个公开数据集实验表明MFT在OA、AA、κ指标上均显著优于CNN及现有Transformer。

关注gongzhonghao【图灵学术计算机论文辅导】，快速拿捏更多计算机SCI/CCF发文资讯。