- 博客(198)
- 资源 (1)
- 收藏
- 关注
原创 【DETR目标检测】ISTD-DETR:一种基于DETR与超分辨率技术的红外小目标检测深度学习算法
本文提出ISTD-DETR算法,一种结合超分辨率技术与改进RT-DETR模型的红外小目标检测方法。针对红外图像低对比度、高噪声和小目标检测的挑战,该方法通过EDSR超分辨率预处理增强图像细节,采用状态空间模型与EMA架构构建主干网络,并引入SPD-EMA模块和S2特征层优化特征融合。实验表明,该算法在Anti-UAV和SIRST数据集上实现了精度与实时性的平衡,显著降低了误检和漏检率。主要创新包括:改进的Transformer架构、Mamba模型骨干网络、SPD-EMA特征增强模块和超分辨率预处理技术,为红
2025-06-11 11:02:52
712
1
原创 【医学目标检测】LN-DETR:一种基于多尺度特征融合的肺结节检测高效Transformer架构
肺癌仍是全球主要致死病因之一,早期检测对提高患者生存率至关重要。传统肺结节检测方法效率低下且准确性不足,难以满足临床需求。尽管深度学习方法在医学影像分析领域取得进展,现有技术对形态复杂的小结节检测效果仍不理想,存在漏检与假阳性问题。此外,既往模型的高计算复杂度阻碍了实时检测。针对这些挑战,本研究提出名为LN-DETR的基于Transformer的肺结节检测模型。
2025-06-11 10:46:07
740
原创 【反无人机检测】C2FDrone:基于视觉Transformer网络的无人机间由粗到细检测
基于视觉的无人机间检测系统在碰撞规避、反制敌对无人机和搜救行动等应用中至关重要。然而,无人机检测面临独特挑战,包括目标尺寸小、形变、遮挡及实时处理需求。现有融合多尺度特征与时序信息的方法在处理极端模糊和微小物体时存在局限。为此,我们提出一种基于视觉Transformer的从粗到精检测策略。通过在三个高难度无人机间检测数据集(FL-Drones、AOT和NPS-Drones)上的评估,我们的方法分别实现了7%、3%和1%的F1分数提升。此外,通过将模型部署在边缘计算设备上,我们验证了其实时处理能力。
2025-06-04 07:57:16
1001
原创 【医学实例分割】ASF-YOLO:一种用于细胞实例分割的具有注意力尺度序列融合的新型YOLO模型
摘要 本文提出ASF-YOLO模型,一种结合注意力机制与多尺度特征融合的新型YOLO架构,用于提升细胞实例分割性能。针对细胞图像中目标微小、密集、边界模糊等挑战,模型创新性地设计了尺度序列特征融合(SSFF)模块和三元特征编码器(TFE)模块,通过三维卷积操作整合多尺度特征,并引入通道与位置注意力机制(CPAM)优化关键特征提取。实验表明,该模型在2018数据科学碗数据集上达到0.91边界框mAP和0.887掩码mAP,推理速度达47.3 FPS,性能优于现有方法。研究首次将改进YOLO框架成功应用于细胞实
2025-06-03 08:29:25
822
原创 【目标检测】【CVPR-2021】Efficient DETR: Improving End-to-End Object Detector with Dense Prior
摘要: 本文提出高效DETR,一种改进的端到端目标检测框架,通过优化目标容器(包含目标查询和参考点)的初始化策略,显著减少解码器层数需求。研究发现,传统DETR依赖6层解码器的核心原因是随机初始化的目标容器需要多次迭代优化。高效DETR结合密集检测与稀疏检测的优势,利用密集先验(如滑动窗口生成的Top-K候选框及其特征)初始化目标容器,仅需1层解码器即可媲美6层结构的性能。实验表明,在MS COCO数据集上,3编码器+1解码器的配置(ResNet50骨干)仅需36轮训练即达44.2 AP,并在拥挤场景(Cr
2025-05-31 06:53:29
783
原创 【目标检测】【AAAI-2022】Anchor DETR
摘要 本文提出Anchor DETR,一种基于Transformer的目标检测新方法。传统DETR使用可学习查询向量,但存在难以解释和优化困难的问题。为此,我们设计基于锚点的查询机制,使每个查询聚焦特定区域,并通过多模式预测解决"单区域多目标"问题。此外,提出行列解耦注意力(RCDA)降低内存消耗。实验表明,Anchor DETR在MSCOCO上仅需50个训练周期即达44.2 AP,比DETR减少90%训练时间,同时保持19 FPS的实时速度。主要贡献包括:(1)可解释的锚点查询设计;(
2025-05-30 21:53:46
1241
原创 【目标检测】【ICCV 2021】条件式DETR实现快速训练收敛
摘要 本文提出条件式DETR(Conditional DETR),一种改进的Transformer目标检测方法,显著加速DETR的训练收敛速度。研究发现,DETR的交叉注意力机制过度依赖内容嵌入来定位物体边界,导致训练难度增加。条件式DETR通过在解码器嵌入中学习条件空间查询,使每个注意力头能够聚焦特定区域(如物体端点或内部区域),从而缩小定位范围并降低对内容嵌入的依赖。实验表明,该方法在COCO数据集上使用ResNet-50/101骨干网络时收敛速度提升6.7倍,使用DC5增强骨干时加速达10倍,同时保持
2025-05-30 07:55:41
1048
1
原创 【反无人机目标检测】基于分层聚合特征的差异化注意力引导网络在智能无人机监控中的应用
本文提出DAGNet网络用于智能无人机红外监控,通过差异化注意力机制解决复杂背景下多尺度目标检测难题。该网络在深层采用通道调制可变形空间注意力(CDSA)增强大目标特征,在浅层部署空间感知通道注意力(SCA)聚焦小目标,中间层结合双维度组合注意力(DCA)。特征聚合器(FA)模块通过自下而上的上下文调制实现跨层特征融合,末端集成SCA进一步增强判别特征。实验表明,该方法显著提升了小目标检测性能,在真实红外数据集上优于现有基准模型。创新点包括:1)差异化配置多类型注意力机制;2)CDSA和SCA模块设计;3)
2025-05-28 07:47:15
1531
1
原创 【AAAI2025】【小目标检测】FBRT-YOLO:更快速、更优的实时航拍图像检测方法
FBRT-YOLO是一种新型实时航拍图像检测方法,针对小目标检测的精度与效率平衡问题提出创新解决方案。该方法通过两个轻量级模块显著提升性能:特征互补映射模块(FCM)将浅层空间位置信息深度整合至网络深层,缓解信息失衡;多核感知单元(MKP)采用多尺度卷积增强多目标感知能力。实验表明,在VisDrone、UAVDT和AI-TOD数据集上,FBRT-YOLO在检测精度和速度方面均优于现有实时检测器,特别适用于资源受限的飞行设备。该模型通过精简网络结构,在保持高性能的同时降低了计算负担,为航拍实时检测提供了高效解
2025-05-28 07:31:34
1845
原创 【目标检测】【医学图像目标检测】BGF-YOLO:脑肿瘤检测的多尺度注意力特征融合
本文提出BGF-YOLO模型,通过改进YOLOv8架构实现脑肿瘤检测性能提升。该模型整合了双层路由注意力机制(BRA)、广义特征金字塔网络(GFPN)和第四检测头,形成更深的颈部结构。BRA模块实现动态稀疏注意力,聚焦关键特征;GFPN通过跨层级密集连接增强多尺度特征融合;新增160×160检测头扩展检测范围。在Br35H数据集上的实验表明,BGF-YOLO相比YOLOv8x实现mAP50指标4.7%的绝对提升,达到当前最优性能。该工作首次将增强型YOLOv8应用于脑肿瘤检测,为医学图像分析提供了新解决方案
2025-05-25 20:53:54
1635
原创 【目标检测】【Transformer】Swin Transformer
Swin Transformer是一种新型的视觉Transformer架构,旨在解决将Transformer从语言领域迁移到视觉领域时面临的挑战,如视觉实体尺度的变化性和图像像素的高分辨率特性。该架构采用基于移位窗口的分层设计,通过将自注意力计算限制在非重叠局部窗口内来提高效率,同时保留跨窗口连接能力。这种设计使得Swin Transformer在图像分类和密集预测任务中表现出色,超越了此前的最佳成果。其分层特征图结构和线性计算复杂度使其成为计算机视觉领域的通用骨干网络,展示了Transformer在视觉任
2025-05-17 11:54:00
1062
原创 【暗光图像增强】【基于CNN的方法】2020-AAAI-EEMEFN
本文提出了一种基于边缘增强多重曝光融合网络(EEMEFN)的低光照图像增强方法,旨在解决现有技术在极低光照条件下图像增强中的三大问题:高对比度区域的细节恢复、色偏校正以及边缘模糊。EEMEFN采用双阶段处理流程,第一阶段通过多曝光融合模块从单幅图像生成不同曝光时长的图像序列,并融合各图像中的良好曝光区域,生成色彩准确的初始图像;第二阶段引入边缘增强模块,利用边缘信息优化初始图像,生成边缘锐利的高质量图像。实验结果表明,EEMEFN在See-in-the-Dark数据集上实现了最先进的性能,显著提升了图像质量
2025-05-16 23:52:49
1076
原创 【目标检测】RT-DETR
在CVPR 2024上,研究者提出了一种名为RT-DETR的实时目标检测器,首次在速度和精度上超越了YOLO系列模型。RT-DETR通过设计高效混合编码器和不确定性最小化查询选择机制,解决了传统DETR模型计算成本高的问题,并消除了非极大值抑制(NMS)对检测速度和精度的负面影响。实验结果显示,RT-DETR在COCO数据集上达到了53.1%/54.3% AP,并在T4 GPU上实现了108/74 FPS,显著优于现有YOLO模型。此外,RT-DETR支持通过调整解码器层数灵活调节速度,无需重新训练即可适应
2025-05-16 20:41:23
1463
1
原创 【CV数据集】DIOR遥感目标检测数据集(含处理好的YOLO、COCO、VOC格式和相关配置文件下载链接)
这20个对象类是飞机、机场、棒球场、篮球场、桥梁、烟囱、水坝、高速公路服务区、高速公路收费站、港口、高尔夫球场、地面田径场、天桥、船舶、体育场、储罐、网球场、火车站、车辆和风磨。如果使用YOLO系列算法进行训练和测试需要创建DIOR.yaml文件,这个文件我在网盘文件中也有。需要注意的是这里唯一需要修改的就是path,这是你下载了我处理好的DIOR数据集文件的存放路径。这是处理好的DIOR数据集的YOLO、COCO和VOC格式的数据集文件的网盘链接。我按照7:1:2的比例划分了训练集、验证集和测试集。
2025-05-01 19:13:33
867
4
原创 【CV数据集】Visdrone2019无人机目标检测数据集(YOLO、VOC、COCO格式)
visdrone2019的Task1是非常通用的目标检测数据集,也是许多人做目标检测论文和项目必然会用到的数据集,我将该数据集进行了处理,将其YOLO、VOC和COCO格式都整理好,通过下载我整理好的数据集和相关文件,可以直接在自己的项目上使用,大大节约数据集预处理的时间。链接: https://pan.baidu.com/s/1GlbUEU7XKtgBkoMa0GkUlg?pwd=8ndf 提取码: 8ndf。通过网盘分享的文件:Visdrone2019.rar。–来自百度网盘超级会员v7的分享。
2025-05-01 18:59:37
447
1
原创 【遥感图像分类】【综述】遥感影像分类:全面综述与应用
遥感技术主要用于调查水坝、桥梁和管道等工程场地,以定位建筑材料并提供详细地理信息。在遥感图像分析中,通过卫星和无人机获取的图像被用于观测地球表面。基于图像分类的系统主要目标是为采集图像赋予语义标签,进而通过这些标签实现图像的语义排序。这种语义排列被广泛应用于数字图像处理与计算机视觉的多个领域,包括遥感、图像检索、物体识别、图像标注、场景分析、基于内容的图像分析以及视频分析。早期的遥感图像分析方法主要基于低层次和中层次特征提取与表示技术。通过不同特征组合与机器学习方法,这些技术已展现出良好性能。
2025-04-25 12:07:12
1870
原创 【目标检测】【YOLO综述】YOLOv1到YOLOv10:最快速、最精准的实时目标检测系统
摘要——本文是对YOLO系列系统的全面综述。与以往文献调查不同,本综述文章从最新技术视角重新审视了YOLO系列的特性。同时,我们还分析了YOLO系列如何持续影响并推动实时计算机视觉相关研究,以及如何引领后续计算机视觉与语言模型的发展。我们深入探讨了过去十年间YOLO系列提出的方法如何影响后续技术演进,并展示了YOLO在各领域的应用场景。希望本文能为后续实时计算机视觉的发展起到良好的指导作用。索引关键词—YOLO,计算机视觉,实时目标检测。
2025-04-15 16:21:54
2240
原创 【目标检测综述】20年目标检测技术综述
摘要—目标检测作为计算机视觉领域最基础且最具挑战性的问题之一,近年来受到极大关注。过去二十年间,我们见证了目标检测技术的快速演进及其对整个计算机视觉领域的深远影响。若将当前以深度学习为驱动的目标检测技术视作一场革命,那么回溯至20世纪90年代,我们便能领略早期计算机视觉研究者独具匠心的思维与极具前瞻性的设计。
2025-04-15 11:36:30
1085
原创 顶刊【遥感舰船目标检测】【TGRS】CM-YOLO:基于上下文调制表征学习的船舶检测方法
摘要—船舶检测在军事和民用领域均具有重要应用价值。现有方法主要关注显著的海上船舶,对易与复杂背景混淆的近岸船舶关注不足。利用位置、形状等上下文信息可提升复杂环境下的船舶检测与分类性能。本文提出一种基于上下文调制表征学习的检测方法CM-YOLO,其采用包含骨干网络、颈部网络和检测头的经典检测器设计框架,输入图像依次通过这三个组件获得检测结果。
2025-04-13 06:52:37
1630
1
原创 顶刊【遥感目标检测】【TGRS】LSKF-YOLO:面向高分辨率卫星遥感影像电力塔检测的大规模选择性核特征融合网络
摘要——随着高分辨率卫星遥感观测技术的快速发展,基于卫星遥感影像的电力塔检测已成为电力智能巡检的关键研究方向。然而,由于复杂背景、目标尺寸小且不均匀等问题,卫星遥感影像中电力塔检测性能仍有待提升。为此,本文首先构建了多场景高分辨率卫星遥感电力塔数据集,进而提出面向高分辨率卫星遥感影像的大选择性核特征融合(LSKF)-YOLO网络。该网络主要由大空间核选择性注意力融合模块和多尺度特征对齐融合(MFAF)结构组成。
2025-04-10 16:55:09
1434
原创 顶刊【遥感目标检测】【TGRS】Enhanced Target Detection:Fusion of SPD and CoTC3 Within YOLOv5 Framework
摘要—高分辨率遥感图像识别具有重要意义,可广泛应用于城市规划、土地利用等领域。现有模型在训练过程中过度关注图像的纹理和细粒度特征,忽略了特征图中更广泛的上下文信息,这降低了模型识别目标的能力。为提高检测精度与鲁棒性,我们提出一种改进版YOLOv5框架,专门针对具有小目标和低分辨率特点的遥感图像分析。通过引入空间到深度(SPD)组件,并采用空洞卷积和深度可分离卷积,增强了模型感知目标属性的能力。此外,我们提出上下文Transformer聚焦综合卷积(CoTC3)模块,将其无缝集成至YOLOv5核心架构。
2025-04-10 16:19:26
1225
原创 顶刊【TGRS】【遥感目标检测】AMFLW-YOLO:基于注意力机制与多尺度特征融合的轻量化遥感图像检测网络
摘要—遥感图像中目标尺度变化大且多样,存在大量分布密集的小目标及高复杂度的图像背景。基于深度学习的物体检测算法网络参数量与计算量庞大,难以在性能固定且计算资源有限的平台上部署。本文提出一种轻量级遥感目标检测模型AMFLW-YOLO(注意力与多尺度特征融合轻量YOLO)。该模型在骨干网络中采用深度可分离卷积、逆残差结构和线性瓶颈结构替代标准卷积层,以降低参数量;在特征融合网络引入坐标注意力机制(CA),同步捕获跨通道的方向与位置感知信息,提升网络精度;
2025-03-30 11:52:26
1308
原创 【通道注意力机制】【SENet】Squeeze-and-Excitation Networks
卷积神经网络建立在卷积操作的基础上,通过融合局部感受野内的空间和通道信息来提取有意义的特征。为了增强网络的表示能力,最近的一些方法展示了增强空间编码的好处。在本研究中,我们专注于通道关系,并提出了一种新颖的架构单元,称为“压缩-激励”(SE)块,它通过显式建模通道之间的相互依赖关系,自适应地重新校准通道特征响应。我们证明,通过堆叠这些块,可以构建在具有挑战性的数据集上表现出色的SENet架构。关键的是,我们发现SE块在现有最先进的深度架构中,以最小的额外计算成本,带来了显著的性能提升。
2025-03-29 23:06:19
1211
原创 顶刊【遥感目标检测】【TGRS】FFCA-YOLO遥感图像小目标检测
摘要——特征表征不足、背景干扰等问题使得遥感图像中的小目标检测任务极具挑战性。尤其在算法需部署于星载设备进行实时处理时,需在有限计算资源下对精度与速度进行深度优化。为此,本文提出一种名为特征增强-融合与上下文感知YOLO(FFCA-YOLO)的高效检测器。
2025-03-29 19:38:18
1899
原创 【YOLO】【遥感目标检测】Object Detection in Remote Sensing Images using YOLOv8
摘要—在遥感图像(RSIs)中检测物体对于从城市规划到灾害响应的各种应用至关重要。然而,当前的深度学习模型由于依赖固定的锚框以及图像中缺乏物体上下文线索,往往表现不佳。为此,我们开发了一种基于YOLOv8技术的专门用于分析遥感图像的目标检测系统。该框架旨在准确识别复杂卫星图像中的物体。通过利用DIOR数据集并将传统注释精心转换为YOLO格式,模型经过严格的训练,最终实现了显著的精度提升。与传统方法不同,该框架特别强调场景上下文特征的整合以及前沿数据增强策略的实施。
2025-03-27 11:21:17
1363
原创 【注意力机制】【医学图像分割】DuAT用于医学图像分割的双聚合Transformer网络
DuAT:用于医学图像分割的双聚合Transformer网络PRCV 2022。
2025-03-27 11:17:22
877
原创 【遥感小目标数据集】【AI-TOD】Tiny Object Detection in Aerial Images
摘要—近年来,地球视觉中的目标检测取得了巨大进展。然而,航空图像中的微小目标检测仍然是一个非常具有挑战性的问题,因为微小目标包含的像素数量较少,并且容易与背景混淆。为了推动航空图像中微小目标检测的研究,我们提出了一个新的数据集,即航空图像中的微小目标检测数据集(AI-TOD)。具体而言,AI-TOD包含28,036张航空图像中的八类共700,621个目标实例。与现有的航空图像目标检测数据集相比,AI-TOD中目标的平均大小约为12.8像素,远小于其他数据集。
2025-03-26 16:43:05
2423
原创 【遥感小目标检测】YOLO-FNC
摘要—遥感图像中小目标的检测算法由于复杂的背景和有限的像素,往往具有挑战性。这可能导致检测精度降低和小目标漏检数量增加。因此,本文提出了一种基于YOLOv7的增强网络YOLOFNC。为了提高模型捕捉小目标特征的能力,设计了一种基于C3模块的增强型C3-Faster模块,并将其集成到YOLOv7网络中。该模块有助于提取更多与小目标相关的特征。此外,我们采用归一化Wasserstein距离(NWD)融合GIoU作为新的损失函数,以优化网络权重和小目标回归框架的精度。
2025-03-21 08:35:08
923
原创 【反无人机目标检测】DRBD-YOLOv8
摘要:由于对无人飞行器(UAV)相关的安全和隐私问题的日益关注,反无人机检测系统的兴趣不断增加。在边缘计算设备资源有限的情况下,实现高精度的实时检测是反无人机检测面临的一个重大挑战。现有的基于深度学习的反无人机检测模型往往无法在精度、处理速度、模型大小和计算效率之间取得平衡。为了解决这些局限性,本文提出了一种轻量级且高效的反无人机检测模型DRBD-YOLOv8。
2025-03-12 13:14:52
2454
1
原创 【反无人机目标检测数据集】MIDGARD:关于基于机器学习的微型无人机视觉相对定位的训练数据集
摘要——通过利用我们相对微型无人机定位传感器UVDAR,我们生成了一个自动标注的数据集MIDGARD,邀请社区使用该数据集来训练和测试其机器学习系统,以实现微型无人机(MAV)对其他MAV的检测和定位。此外,我们提供我们的系统作为一种快速生成定制标注数据集的机制,专门针对特定应用的需求。最近的文献中,机器学习方法在自动化和机器人领域的应用非常丰富。其中,视觉目标检测与定位是这些方法的一个子集,使用诸如卷积神经网络等手段,如今能够以以前难以想象的精度和可靠性检测和分类目标。
2025-03-12 13:06:03
1225
原创 【反无人机目标检测数据集】空对空视觉检测微型无人机:深度学习的实验评估
摘要—本文研究了利用单目摄像头进行空中对微型无人机(UAV)视觉检测的问题。该问题在许多应用中具有重要意义,例如基于视觉的无人机集群、恶意无人机检测以及无人机的“看见并避让”系统。尽管深度学习方法在许多目标检测任务中表现出色,但其在无人机检测中的潜力尚未得到充分探索。作为本文的第一个主要贡献,我们提出了一个名为Det-Fly的新数据集,该数据集包含由另一架飞行无人机获取的超过13,000张目标无人机飞行图像。
2025-03-11 19:06:44
2175
原创 【反无人机数据集】【目标检测】基于深度学习和距离分析的无人机检测图像处理技术应用
无人机在我们的日常生活中有许多应用,可以用于农业、军事、商业、灾害救援、研发等多种用途。近年来,小型无人机/无人飞行器的使用显著增加。因此,小型无人机被滥用于非法活动(如恐怖主义和毒品走私)的潜在风险也在上升。因此,需要一种能够在各种环境中使用的准确且可靠的无人机识别技术。本文基于计算机视觉和深度学习的原理,使用了当前最先进的目标检测模型(即YOLO模型)的不同版本来检测小型无人机。为了提高小型无人机的检测精度,本文提出将多种图像处理技术应用于现有检测模型,从而显著提升了性能。
2025-03-11 15:06:22
1520
原创 【目标检测】【NeuralPS 2023】Gold-YOLO:通过收集与分发机制实现的高效目标检测器
在过去的几年中,YOLO系列模型已成为实时目标检测领域的领先方法。许多研究通过修改架构、增强数据和设计新的损失函数,将基线提升到了更高的水平。然而,我们发现尽管特征金字塔网络(FPN)和路径聚合网络(PANet)已经缓解了这一问题,但之前的模型仍然存在信息融合问题。因此,本研究提出了一种先进的“收集与分发”机制(GD机制),该机制通过卷积和自注意力操作实现。这种新设计的模型名为Gold-YOLO,它增强了多尺度特征融合能力,并在所有模型规模上实现了延迟与准确性的理想平衡。
2025-03-07 21:23:16
1473
原创 【目标检测】Efficient Feature Fusion for UAV Object Detection
无人机(UAV)遥感图像中的目标检测面临诸多挑战,如图像质量不稳定、目标尺寸小、背景复杂以及环境遮挡等。特别是小目标在图像中占据的比例较小,导致其准确检测极为困难。现有的多尺度特征融合方法通过聚合不同分辨率的特征,在一定程度上应对了这些挑战。然而,由于特征表示不足和网络信息流不平衡,这些方法往往无法有效平衡小目标的分类和定位性能。本文提出了一种专门为无人机目标检测任务设计的新型特征融合框架,旨在同时提升定位精度和分类性能。
2025-03-07 20:57:35
1038
原创 【目标检测】【CVPR 2025】DEIM:具有改进匹配机制的DETR以实现快速收敛
我们介绍了DEIM,这是一种创新且高效的训练框架,旨在加速基于Transformer架构(DETR)的实时目标检测的收敛速度。为了缓解DETR模型中一对一(O2O)匹配固有的稀疏监督问题,DEIM采用了密集O2O匹配策略。该方法通过引入额外目标并使用标准数据增强技术,增加了每张图像的正样本数量。虽然密集O2O匹配加快了收敛速度,但也引入了大量低质量匹配,可能影响性能。为了解决这一问题,我们提出了可匹配性感知损失(MAL),这是一种新颖的损失函数,能够优化不同质量水平的匹配,从而增强密集O2O的有效性。
2025-03-06 21:44:46
4854
1
原创 【CVPR 2024】【实时目标检测】D-FINE:将DETRS中的回归任务重新定义为细粒度分布优化
我们推出了D-FINE,这是一种强大的实时目标检测器,通过重新定义DETR模型中的边界框回归任务,实现了卓越的定位精度。D-FINE包含两个关键组件:细粒度分布优化(FDR)和全局最优定位自蒸馏(GO-LSD)。FDR将回归过程从预测固定坐标转变为迭代优化概率分布,提供了细粒度的中间表示,显著提升了定位精度。GO-LSD是一种双向优化策略,通过自蒸馏将定位知识从优化后的分布传递到较浅层,同时简化了较深层的残差预测任务。
2025-03-06 08:53:07
1321
原创 【CVPR 2024】【多模态目标检测】SHIP 探究红外与可见光图像融合中的高阶协同交互
红外与可见光图像融合旨在通过整合和区分多源互补信息生成融合图像。尽管具有全局空间交互的交叉注意力机制表现出潜力,但它仅捕捉了二阶空间交互,忽略了空间和通道维度上的高阶交互。这一限制阻碍了多模态协同效应的充分利用。为了弥补这一差距,我们提出了一种协同高阶交互范式(SHIP),旨在系统地研究红外与可见光图像在空间细粒度和全局统计两个基本维度上的协作:1)空间维度:通过逐元素乘法构建空间细粒度交互,数学上等同于全局交互,然后通过迭代聚合和演化互补信息,促进高阶形式,提升效率和灵活性;
2025-03-05 10:35:58
2077
原创 【多模态目标检测】M2FNet:基于可见光与热红外图像的多模态融合目标检测网络
融合可见光(VIS)和热红外(TIR)图像的多模态信息对于在完全适应不同光照条件下的目标检测至关重要。然而,由于缺乏同时标注VIS和TIR配准图像的训练数据,现有模型通常将VIS和TIR图像视为独立信息,并通过单独的网络提取相应特征。为了填补这一空白,本文提出了一种基于Transformer架构的新型多模态融合网络(M2FNet),其中包含两个有效模块:联合模态注意力(UMA)和跨模态注意力(CMA)。UMA模块聚合了来自VIS和TIR图像的多光谱特征,然后通过卷积神经网络(CNN)骨干网络提取多模态特征。
2025-03-05 10:25:44
5278
1
原创 【多模态目标检测】【AAAI 2025】FD2-Net
红外-可见光目标检测(IVOD)旨在利用红外和可见光图像中的互补信息,从而提升检测器在复杂环境中的性能。然而,现有方法往往忽略了互补信息的频率特性,例如可见光图像中丰富的高频细节和红外图像中有价值的低频热信息,从而限制了检测性能。为了解决这一问题,我们提出了一种新颖的频率驱动特征分解网络,称为FD2-Net,它能够有效捕捉跨模态视觉空间中互补信息的独特频率表示。
2025-03-04 15:15:17
2523
7
原创 【多模态目标检测】DEYOLO: Dual-Feature-Enhancement YOLO for Cross-Modality Object Detection
在低光照环境下进行目标检测是一项具有挑战性的任务,因为物体在RGB图像中通常不清晰可见。由于红外图像提供了补充RGB图像的清晰边缘信息,融合RGB和红外图像有潜力增强低光照环境下的检测能力。然而,现有涉及可见光和红外图像的工作仅关注图像融合,而非目标检测。此外,它们直接融合了两种图像模态,忽略了它们之间的相互干扰。
2025-03-04 10:08:14
3840
1
目标检测历史,HistoryOfObjectRecognition
2024-03-03
模式识别算法MATLAB实现
2023-10-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人