DEYOLO 全面复现,将双增强跨模态目标检测网络 DEYOLO 融合到 YOLOFuse 框架

【丹摩智算周年庆】算力限时放血,囤到就是赚到! RTX4090:0.99元/时、A800仅3.66元/时,每充500返100,周充500即可参与送1台4090*1个月使用权”限时抽奖。秒杀入口:https://damodel.com/register?source=130C98A2

模型架构模态精度 P召回率 RmAP50mAP50-95模型大小(MB)计算量(GFLOPs)
yolov8n (baseline)RGB0.8880.8290.8910.5006.28.1
yolo-fuse-中期特征融合RGB+IR0.9510.8810.9470.6012.613.2
yolo-fuse-早期特征融合RGB+IR0.9500.8960.9550.6235.26.7
yolo-fuse-决策级融合RGB+IR0.9560.9050.9550.6128.810.7
yolo-fuse-极简融合RGB+IR0.8990.8650.9390.627.838.5
DEYOLORGB+IR0.9430.8950.9520.61511.8516.6

在这里插入图片描述
在这里插入图片描述

论文地址:https://arxiv.org/abs/2412.04931
DEYOLO代码地址: https://github.com/chips96/DEYOLO
YOLOFuse项目地址:https://github.com/WangQvQ/YOLOFuse


引言

在弱光、雾霾等复杂环境下,单纯依靠可见光图像进行目标检测往往效果不佳;而红外图像能提供清晰的轮廓信息,却缺乏纹理细节。将两者融合,能够互补优势,但如何在 检测任务 导向下有效融合、并减少模态间的相互干扰,是目前的挑战。针对这一问题,本文提出了一种基于 YOLOv8 的 双增强跨模态目标检测网络 DEYOLO,通过 双语义增强通道权重分配(DECA)双空间增强像素权重分配(DEPA)双向解耦 Focus 模块,在特征层面实现“检测驱动”的跨模态信息互补与干扰抑制,并在 M3FD、LLVIP 等数据集上取得了明显优于 SOTA 的性能提升 。


背景与动机

  1. 单模态检测局限

    • 传统可见光目标检测(如 YOLO、DETR、Swin Transformer)在纹理细节丰富时表现优秀,但对弱光或遮挡场景不鲁棒。
    • 红外小目标检测网络(如 ALCNet、ISTDU-Net、IRSTD-GAN)虽能在低光条件下检测,但单独红外缺乏色彩和细节信息,难以支持复杂场景的检测需求 。
  2. 现有跨模态融合不足

    • 常见方法要么将 RGB-IR 拼四通道输入,要么在特征下游简单拼接,两者缺乏深度交互。
    • “融合-检测”策略通常先做图像融合再检测,既不以检测为中心,也没有解决融合过程中模态间的互相干扰问题 。

正是在这样的背景下,DEYOLO 从特征层面入手,设计“检测导向”的双增强机制,以期在保持两种模态各自优势的同时,最大化互补效果并抑制相互干扰。


DEYOLO 方法概览

在这里插入图片描述

DEYOLO 在 YOLOv8 的骨干与检测头之间,引入了两大跨模态增强模块(DECA、DEPA),并在骨干前期插入 双向解耦 Focus,如图所示:

Backbone
输入RGB特征
输入IR特征
双向解耦 Focus
浅层特征
DECA
DEPA
融合特征
检测头

1. 双语义增强通道权重分配模块(DECA)

在这里插入图片描述

  • 目标:在通道维度上,利用单模态与跨模态融合信息,分别 增强融合特征反向提升单模态特征 的语义表达能力。

  • 流程

    1. 跨模态融合提取:将来自骨干的 RGB/IR 特征拼接后通过卷积得到混合特征 F M i x 0 F_{Mix}^0 FMix0

    2. 通道权重编码:对 F M i x 0 F_{Mix}^0 FMix0 进行跨模态权重抽取(CMWE),得权重 W _ M i x 0 W\_{Mix}^0 W_Mix0;同时分别对 RGB、IR 特征通过 SE 结构提取单模态通道权重 W V 0 , W I R 0 W_V^0, W_{IR}^0 WV0,WIR0

    3. 双重增强

      • 第一增强:

        W V e n = W V 0 ⊗ s o f t m a x ( W M i x 0 ) , W I R e n = W I R 0 ⊗ s o f t m a x ( W M i x 0 ) W^{en}_V = W^0_V \otimes \mathrm{softmax}(W^0_{Mix}),\quad W^{en}_{IR} = W^0_{IR} \otimes \mathrm{softmax}(W^0_{Mix}) WVen=WV0softmax(WMix0),WIRen=WIR0softmax(WMix0)

      • 第二增强:

        F I R 1 = F I R 0 ⊙ W V e n , F V 1 = F V 0 ⊙ W I R e n F^1_{IR} = F^0_{IR} \odot W^{en}_V,\quad F^1_V = F^0_V \odot W^{en}_{IR} FIR1=FIR0WVen,FV1=FV0WIRen

通过上述步骤,DECA 能在通道层面 重分配注意力,兼顾单模态与融合特征的语义重要性 。

2. 双空间增强像素权重分配模块(DEPA)

  • 目标:在空间(像素)维度上,模拟 DECA 的双增强机制,用于 位置敏感 的特征融合。

  • 流程

    1. 对 DECA 输出的 F V 1 , F I R 1 F^1_V,F^1_{IR} FV1,FIR1 分别进行不同尺度的卷积提取临时权重,再形变后相乘得到跨模态空间权重 W M i x 1 W^1_{Mix} WMix1

    2. 分别使用 3×3 和 5×5 卷积获得两种尺度下的单模态像素权重 W V 1 , W I R 1 W^1_V,W^1_{IR} WV1,WIR1,再通过软最大化与 W M i x 1 W^1_{Mix} WMix1 结合。

    3. 双重增强:

      F I R = F I R 1 ⊙ W V e n , F V = F V 1 ⊙ W I R e n F_{IR} = F^1_{IR}\odot W^{en}_V,\quad F_V = F^1_V\odot W^{en}_{IR} FIR=FIR1WVen,FV=FV1WIRen

    4. 最终将二者相加,送入检测头。

DEPA 强调了空间位置上的互补信息,进一步丰富了跨模态特征的结构表达 。

3. 双向解耦 Focus

在这里插入图片描述

  • 灵感:YOLOv5 的 Focus 模块可无损下采样;DEYOLO 通过水平/垂直两种解耦采样方式,增强骨干对不同方向上下文的感受野。
  • 结构:将浅层特征按像素间隔分组,在横向与纵向分别采样,再进行深度可分离卷积,最后与原特征拼接,扩大感受野且保留细节 。

实验与结果

数据集与评价指标

  • 数据集:M3FD(4,200 对 RGB-IR)、LLVIP(16,836 对)、KAIST(清洗后 7,601/2,252) 。
  • 指标:mAP@0.5、mAP@0.5:0.95(mAP50−95)、Log Average Miss Rate (LAMR)。

消融实验

在这里插入图片描述

  • 模块贡献(Table 1):

    • 单独 DECA 或 DEPA,在 M3FD 上分别提升 mAP50 +4.2%/+3.6%,mAP50−95 +4.4%/+3.5%。
    • DECA+DEPA 联合 +4.4%/+4.6%,三者(含 Focus)则达 +5.8%/+5.3% 。
  • 核大小与层数

    • DEPA 在 3×3 卷积核时效果最佳(Table 2)。
    • DECA 使用 3 层深度可分离卷积效果优于普通卷积(Table 3)。

与 SOTA 比较

  • 单模态 vs DEYOLO

    • 可见光单模态最高 mAP50≈88.3%,红外≈78.3%;DEYOLO-n 达 86.6%、DEYOLO-l 达 91.2%(M3FD),均超越多种 ViT/RCNN、YOLOv7/8 等 。
  • 融合-检测方法

    • 与 IRFS、U2Fusion、SeAFusion 等融合算法比较,DEYOLO-n 在 M3FD 上至少领先 5.4% mAP50,DEYOLO-l 领先超过 10% 。
  • 泛化能力:在 KAIST 数据集上,虽然未夺魁,但仍优于多数 RGB-T 检测方法,说明跨光谱特征增强具有广泛适用性。


讨论与展望

  • 优势

    1. 检测导向:直接在特征层面交互融合,以检测性能为优化目标;
    2. 双增强机制:通道与空间维度的互补增强,有效抑制模态间噪声干扰;
    3. 轻量可插拔:DECA/DEPA 与双向 Focus 可插入其它骨干网络。
  • 局限与未来

    • 对齐要求较高的数据对;
    • 如何在更大尺度、更多模态(如深度/SAR)中扩展?
    • 实时性与资源消耗的权衡值得深入探索。

结语

DEYOLO 通过 双语义双空间 的“检测驱动”跨模态特征增强,结合 双向解耦 Focus,在弱光与复杂场景下显著提升了目标检测性能,为可见光与红外融合检测提供了新思路。其模块化设计也为后续多模态检测模型的构建和应用奠定了基础。未来,可在更加多样化的场景与模态上,继续探索双增强策略的广泛适用性与即时性优化。

### 多模特征融合目标检测中的应用 多模特征融合是一种将来自多种数据源的信息结合起来的方法,旨在提升模型的表现能力。对于目标检测任务而言,这种技术可以通过结合视觉和文本等多种模式的数据来增强模型的理解能力和预测精度。 #### 方法概述 一种常见的多模特征融合策略是基于规则的融合方法[^1]。这种方法通常涉及预定义的规则集,用于指导如何有效地组合不同模型的结果。例如,在集成学习中,多个分类器可以被联合起来以提高整体系统的鲁棒性和准确性。 针对实时开放词汇目标检测的任务,可能需要考虑具体的模型框架及其配置环境[^2]。这不仅涉及到硬件资源的有效利用,还需要关注软件层面的各种参数调整以及优化算法的选择。 为了更好地理解输入数据的情感特性,还可以借助自然语言处理工具如Stanford Log-Linear POS标记器来进行初步分析,并进一步通过SentiWordNet获取更深层次的情绪倾向信息[^3]。这些步骤有助于构建更加精细的语义表示形式,从而促进后续阶段的跨模态关联挖掘工作。 另外值得注意的是最近有研究者提出了一种新的多视图CLIP架构,它能够捕捉到图片、文字之间复杂的相互作用关系,并且已经在某些特定场景下取得了优异的成绩[^4]。此方案或许能为解决当前存在的挑战提供一些启发性的思路。 下面给出一段简单的Python伪代码作为参考: ```python import torch from transformers import CLIPProcessor, CLIPModel def multimodal_feature_fusion(image_path, text_input): # 加载预训练好的CLIP模型与处理器实例 model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32") processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32") # 准备图像和文本输入 inputs = processor(text=text_input, images=image_path, return_tensors="pt", padding=True) with torch.no_grad(): outputs = model(**inputs) logits_per_image = outputs.logits_per_image # 图像相对于每条文本的概率分布 return logits_per_image.mean().item() # 返回平均相似度得分 if __name__ == "__main__": image_file = "./example.jpg" sentence = ["A man riding a horse.", "An airplane flying over the ocean."] result = multimodal_feature_fusion(image_file, sentence) print(f"The similarity score is {result:.4f}.") ``` 上述脚本展示了如何使用Hugging Face库加载一个预先训练完成的基础版本CLIP网络结构,并执行基本的操作流程——即接受一张照片加上若干描述性短句之后计算它们之间的匹配程度数值。
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值