1+1＞2！特征融合如何让目标检测更懂 “场景”？-CSDN博客

本文链接：https://blog.csdn.net/Tulingxueshu/article/details/149779663

来gongzhonghao【图灵学术计算机论文辅导】，快速拿捏更多计算机SCI/CCF发文资讯～

在多模态大模型（MLLM）时代，特征融合与目标检测的研究方向正变得愈发关键。从红外与可见光图像的融合，到语音活动检测中的特征融合，再到多模态目标检测中的特征学习，不仅展示了特征融合在不同领域的广泛应用，也揭示了该方向的创新趋势。例如，通过引入注意力机制和动态特征融合，可以显著提升小目标检测的性能。这些创新点逐渐成为顶会顶刊paper发表热门方向，如果你对这一领域感兴趣，建议从这些创新点入手。

小图精选了3篇特征融合+目标检测前沿论文，拆解其思路、创新点。满满干货，点赞收藏不迷路~

Revisiting DETR for Small Object Detection via Noise-Resilient Query Optimization

方法：文章首先构建了一个包含NT-FPN和PS-RPN的NRQO框架，NT-FPN通过空间对比和语义对比来保持特征的空间和语义完整性，PS-RPN则通过引入成对相似性度量，结合位置和形状相似性来提高锚点与真实框之间的匹配质量，进而生成高质量的正查询。最终，通过结合NT-FPN和PS-RPN的损失函数对模型进行优化，实现了在小目标检测任务中的性能提升。

创新点：

提出了噪声容忍特征金字塔网络，通过保持空间和语义信息的完整性来减少FPN特征融合过程中的噪声。
设计了成对相似性区域提议网络，通过增强锚点与真实框之间的位置和形状相似性匹配，无需额外超参数即可生成高质量的正查询。
在多个大规模数据集上验证了NRQO范式的有效性，与现有最先进的方法相比，展现了其在小目标检测任务中的优越性能。

总结：这篇文章提出了一种新的噪声弹性查询优化范式，用于提升小目标检测的性能，旨在解决现有基于Transformer的目标检测器在小目标检测任务中因特征金字塔网络的固有噪声敏感性以及标签分配策略导致的查询质量下降而面临的挑战。

ATFusion: An Alternate Cross-Attention Transformer Network for Infrared and Visible Image Fusion

方法：文章首先构建了一个端到端的ATFusion网络框架，该框架包括特征提取模块、特征融合模块和特征重建模块。在特征融合模块中，通过DIIM和ACIIM模块分别提取源图像的差异特征和公共特征。DIIM利用查询向量和键值向量之间的相似性计算差异信息，而ACIIM则交替使用交叉注意力机制来提取公共信息。最后，通过分段像素损失函数对网络进行优化，确保融合图像在保留纹理细节的同时保持亮度平衡。