Clustered Object Detection in Aerial Images论文简读

ClusDet是一种针对航拍图像目标检测的创新框架,它结合目标聚类和检测,提高了检测效率。网络由聚类候选框网络(CPNet)、尺度估计网络(ScaleNet)和专用检测网络(DetecNet)组成。CPNet生成聚类候选框,经过迭代聚类合并模块(ICM)精简,ScaleNet估计目标尺度,DetecNet进行精细检测。最后,全局和局部检测结果通过特征融合得到最终检测。该方法解决了传统方法在高分辨率航拍图像中检测效率低下的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述
code: https://github.com/fyangneil/Clustered-Object-Detection-in-Aerial-Image

背景介绍

看到下面这张图片,可以发现图片的像素很高,像行人这样的目标在图片中所占像素又小,使其很难与周围的背景分开,并且目标比较分散、分布不均匀,这就是航拍图像的目标检测所面临的挑战。
在这里插入图片描述

在这里插入图片描述
对于高分辨率的航拍图像,通常的方法是将图像裁剪成均匀的小块,对这些小块进行目标检测,这种方法召回率比较高,漏检率比较低,存在的问题就是:由于航拍图像目标具有稀疏性,导致这种方法的检测效率低。因此,根据航拍图像的特点作者提出了将目标聚类和检测结合起来的端到端的聚类检测框架(ClusDet)。上图分析,根据航拍图像的特点,若将图像进行聚类裁剪后再进行目标检测,则对于一张图像的目标检测时间会减少,效率会提高。

网络结构

总体框架

在这里插入图片描述

ClusDet中的关键组成包含一个聚类候选框网络(CPNet),一个尺度估计网络(ScaleNet),和一个专用检测网络(DetecNet)。给一张输入图像,CPNet产生目标聚类区域,ScaleNet估计聚类区域的目标尺度,将每个尺度归一化的聚类区域输入到DectecNet中进行目标检测,得到聚类区域的检测结果。最后,将全局目标检测与聚类目标检测进行特征融合,得到最终检测结果。

Cluster Region Extraction

CPNet
在这里插入图片描述

根据航空图像的初始提取的特征图生成一组目标聚类候选框,将其裁剪出来用于后续的精细检测。聚类区域提取的核心是CPNet,具体方法是CPNet从主干网中提取高层特征图作为输入,使用两个分支进行预测聚类区域的位置回归和分类。这是受到了RPN的启发,将CPNet表示为全卷积网络。RPN与CPNet不同的是,RPN是提取目标的候选区域,而CPNet则提取聚类的候选区域。与单个目标相比,聚类的规模要更大一些,因此CPNet需要比RPN更大的感受野,因此CPNet被放在特征提取网络的顶部。

值得注意的是,CPNet是一种监督学习的过程,由人为框出聚类区域,以此来训练CPNet。

ICM
在这里插入图片描述
如上图所示,可以观察到CPNet产生的初始聚类候选框密集又杂乱,这些聚类区域重叠度高、规模大,难以直接用于目标精确的检测,在实际检测会造成很大的计算量。图a是最初获得的聚类候选框,图b是进行ICM后得到的结果。

为了解决这个问题,作者提出了一种简单而有效的迭代聚类合并模块来精简聚类区域。下面就是ICM的伪代码说明:
在这里插入图片描述
简单说明一下该模块,首先选取分数最高的,然后选取重叠度大于等于阈值的区域进行合并,将所有合并的区域从集合中删除。继续这个过程直到集合内为空。多次执行上面的算法,直到最后保留的聚类区域数量为B’。

Fine Detection on Cluster Chip

ScaleNet

为了使用聚类区域,利用专门的检测器对这些区域进行检测。与现有的直接调整聚类区域尺寸进行检测的方法不同,作者提出了一种尺度估计网络(ScaleNet),用于估计聚类区域中目标的尺度,避免了目标极端尺度造成检测性能差的问题。下面就介绍这个方法。
在这里插入图片描述
作者把尺度估计看成一个回归问题,并利用一组全连接网络来构成ScaleNet。

ScaleNet把主干网提取的特征映射、聚类候选框和全局图像的初始检测结果作为输入,输出是聚类中目标的相对尺寸偏移值si。该网络的损失函数如下所示:

在这里插入图片描述
用于回归出比较合适的候选框的位置,以便将候选框输入到DetecNet进行精确的目标检测。

PP module
通过上面的损失函数计算出聚类区域中目标的相对尺寸偏移值,将其带入下面的公式中:图片

该公式的作用在于使用分区和填充操作来确保目标的比例在合适的范围内,具体操作:给定聚类目标框Bi、对应目标的尺度Si以及检测器的输入尺度Sin,可以估计检测器在输入空间的目标尺度图片
。作者把尺寸范围设置为[70,280],若尺寸小于70进行填充操作(即扩充聚类区域范围,直到区域为70*70);若尺寸大于280,则进行分区操作,分成两个相等的聚类区域。

在这里插入图片描述
需要注意的是,在最后整合结果时,填充部分会被忽略,上图显示了填充与分区的过程。

Fusion Operation

在这里插入图片描述
下面将进行特征融合操作,这是网络结构的最后一步。通过将聚类区域的局部检测结果与整个图像的全局检测结果,进行标准NMS后处理融合得到航空图像的最终检测。

需要说明的是,整个图像的全局检测与聚类区域的局部检测都采用Faster-RCNN进行检测。

### Hierarchical Consistency Learning in Unsupervised Domain Adaptation for Object Detection 无监督域适应(Unsupervised Domain Adaptation, UDA)是一种重要的机器学习技术,旨在解决当训练数据和测试数据来自不同分布时模型性能下降的问题。在目标检测领域,UDA 的研究主要集中在如何减少源域和目标域之间的差异,从而提高模型在未标注的目标域上的泛化能力。 #### 方法概述 Hierarchical Consistency Learning 是一种针对无监督域适应设计的方法,其核心思想在于通过多层次的一致性约束来增强特征表示的学习效果[^1]。具体来说,该方法利用了以下两个层次的一致性: 1. **像素级一致性**:通过对输入图像应用不同的变换(如旋转、缩放等),并强制要求这些变换后的预测结果保持一致,以此提升局部特征的鲁棒性和不变性。 2. **实例级一致性**:对于同一对象的不同视图或上下文变化,算法会施加额外的约束条件以确保它们对应相同的类别标签。这种机制有助于捕获更高级别的语义信息,并进一步缩小跨域差距[^3]。 此外,在实际实现过程中,通常还会引入对抗训练策略或者熵最小化原则作为辅助手段,共同促进全局最优解的收敛过程[^2]。 #### 技术细节 以下是 hierarchical consistency learning 中涉及的一些关键技术点及其作用说明: - **结构正则化的深度聚类 (Structurally Regularized Deep Clustering)** 此部分负责构建紧凑且分离良好的簇空间,使得相似样本能够聚集在一起而相异样本彼此远离。这一步骤可以看作是从低维嵌入向量中提取潜在模式的过程之一。 - **自监督预训练 (Self-Supervised Pretraining)** 使用大量未标记的数据预先训练网络参数,以便更好地初始化后续微调阶段所需的权重矩阵。这种方法不仅减少了对手动标注的需求,同时也提高了最终系统的稳定性与效率。 - **多视角推理 (Multi-view Inference)** 基于多个随机采样的子区域生成独立但互补的信息片段集合;随后将其组合起来形成完整的物体描述符。此操作有效缓解了因遮挡等因素引起的误判风险。 下面给出一段简单的伪代码展示上述流程的核心逻辑: ```python def hierarchical_consistency_learning(source_data, target_data): # Step 1: Initialize model with self-supervision pretrained_model = pretrain_on_unlabeled(target_data) # Step 2: Perform clustering and alignment clustered_features = structurally_regularize(pretrained_model.extract_features(target_data)) # Step 3: Enforce pixel-level & instance-level consistencies for epoch in range(num_epochs): for batch in zip(source_data, target_data): loss_pixel = compute_pixel_level_loss(batch) loss_instance = compute_instance_level_loss(clustered_features, batch) total_loss = loss_pixel + lambda * loss_instance optimizer.zero_grad() total_loss.backward() optimizer.step() return pretrained_model.finetune_with_alignment(total_loss) ``` #### 实验验证 为了评估所提方案的有效性,研究人员选取了几组公开可用的大规模视觉基准集进行了对比实验。结果显示,在多种复杂场景下(例如白天到夜晚转换、晴天转雨天等情况),采用 hierarchical consistency learning 后取得显著优于传统迁移学习基线的结果。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

点PY

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值