
深度学习论文阅读
文章平均质量分 91
13
qq_41627642
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
No time to train! Training-Free Reference-Based Instance Segmentation之论文阅读
图像分割模型的性能历来受到大规模标注数据收集成本高昂的制约。Segment Anything Model(SAM)通过一种可提示、与语义无关的分割范式缓解了这一根本问题,但在处理新图像时,仍然需要手动提供视觉提示或依赖复杂的领域相关提示生成规则。为减轻这一新负担,我们的工作研究了一种在仅提供少量参考图像条件下的物体分割任务。我们的关键洞见是:利用基础模型所学习的强大语义先验,在参考图像与目标图像之间识别对应区域。原创 2025-08-08 22:28:25 · 538 阅读 · 0 评论 -
Small Object Detection via Coarse-to-fine Proposal Generation and Imitation Learning之CFINet论文阅读
该指标同时考虑分类置信度与定位精度,能帮助我们在线选出“定位准且置信高”的示例作为“教师”,而那些令模型困惑的实例往往得分很低,便不会被选入示例集。通过设定合适阈值,即可动态、准确地构建高质量示例特征库。原创 2025-08-07 22:19:29 · 732 阅读 · 0 评论 -
Visible and Clear: Finding Tiny Objects in Difference Map之SR-TOD论文阅读
小目标检测是大多数通用检测器面临的关键挑战之一。其主要难点在于提取小目标的有效特征。现有方法通常采用基于生成的特征增强方式,但容易受到虚假纹理和伪影的影响,导致小目标特定特征难以被检测器清晰“看见”。为了解决这一问题,我们提出了一种自重构小目标检测(SR‑TOD)框架。我们首次在检测模型中引入自重构机制,并发现该机制与小目标存在强相关性。具体而言,我们在检测器的 neck 结构之间插入一个重构头,构建输入图像与重构图像的差异图,该图对小目标具有高度敏感性。原创 2025-07-25 13:02:01 · 972 阅读 · 0 评论 -
DETRs与协同混合作业训练之CO-DETR论文阅读
按照标准 DETR 流程,输入图像首先经过主干网络(backbone)和编码器(encoder),生成潜在特征(latent features)。随后,多个预定义的目标查询(object queries)通过交叉注意力(cross-attention)与这些特征在解码器(decoder)中进行交互。我们引入 Co‑DETR,通过“协同混合分配训练”方案和“定制正查询生成”机制,分别提升编码器的特征学习和解码器的注意力学习。下面将详细描述各模块及其工作原理。原创 2025-07-13 22:54:27 · 915 阅读 · 0 评论 -
RFLA: Gaussian Receptive Field based Label Assignment for Tiny Object Detectio论文阅读
检测微小目标(tiny objects)是制约目标检测发展的主要难题之一。通用目标检测器在微小目标检测任务上的性能通常会急剧下降。本文指出,无论是基于锚框(anchor-based)的检测器中的框先验,还是基于无锚(anchor-free)的检测器中的点先验,都对于微小目标并不理想。我们的关键观察是,当前的锚框或无锚标签分配范式会产生许多与微小目标不匹配的异常样本,导致检测器对微小目标的关注度不足。原创 2025-07-11 14:48:30 · 825 阅读 · 0 评论 -
HRDNet: High-resolution Detection Network for Small Objects论文阅读
小目标检测具有挑战性,因为小目标往往不包含足够的细节信息,甚至在深层网络中可能消失。通常,将高分辨率图像输入网络可以缓解这一问题。然而,。为了在保留高分辨率图像优势的同时不引入新问题,我们提出了高分辨率检测网络(HRDNet)。。在 MS COCO2017、Pascal VOC2007/2012 以及典型小目标数据集 VisDrone2019 上进行了大量实验和消融研究。值得一提的是,我们提出的 HRDNet 在这些数据集上均取得了最新的最优性能,且在小目标检测上表现尤为突出。原创 2025-07-06 19:38:52 · 997 阅读 · 0 评论 -
Segment Anything in High Quality之SAM-HQ论文阅读
最近的 Segment Anything Model(SAM)在扩展分割模型规模方面取得了重大突破,具备强大的零样本能力和灵活的提示机制。尽管 SAM 在训练时使用了 11 亿个掩码,其掩码预测质量在许多情况下仍不理想,尤其是对于结构复杂的目标。我们提出了 HQ-SAM,使 SAM 能够精确地分割任意目标,同时保留其原有的可提示设计、高效性和零样本泛化能力。我们的设计充分复用并保留了 SAM 预训练的模型权重,仅引入极少量的附加参数和计算。。原创 2025-06-29 23:13:51 · 1031 阅读 · 0 评论 -
当SAM遇到声纳图像时之论文阅读
Julka 和 Granitzer [16] 将 SAM 应用于行星科学中的地形分割,发现仅微调掩码解码器虽可取得部分结果,却需要大量额外提示才能达到最佳性能,不利于自动化部署;他们因此。原创 2025-06-29 16:33:06 · 1027 阅读 · 0 评论 -
自监督学习在合成孔径声呐目标识别中的应用之论文阅读
自监督学习在合成孔径声呐目标识别中的应用美国巴拿马城海军水面作战中心1 引言在自主水下航行器(AUVs)中应用计算机视觉面临着独特的挑战,因为海洋环境往往条件不可预测且极为严苛。传统计算机视觉研究主要依赖光学相机成像,而在光照不足、悬浮沉积物及水体浑浊的水下环境中难以适用。因此,声呐成像,尤其是其衍生技术——合成孔径声呐(SAS),成为水下成像的首选。搭载SAS的AUV能够扫描海底生成高分辨率图像,其细节表现远超其他类型的声呐。原创 2025-06-19 20:35:15 · 782 阅读 · 0 评论 -
DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution论文阅读
(而非像 SENet [33] 那样通过乘性重标定)。实验表明,将全局信息用于切换函数和主干卷积前后,能让切换判断更稳定,进而提升检测性能。第 5 节的消融实验中,我们将对比有无全局上下文模块的效果。原创 2025-06-19 16:01:44 · 756 阅读 · 0 评论 -
BigDetection:改进目标检测器预训练的大规模基准之论文阅读
近年来,多个数据集和开放挑战已被引入用于目标检测研究。为了构建更通用且强大 的目标检测系统,本文提出了一个新的大规模基准数据集,称为 BigDetection。我们的目标是,并遵循精心设计的原则,构建一个更大规模的数据集,以 提升检测器的预训练效果。具体而言,我们重新定义了一个新的类别体系,统一了来自不同数据源的异构标签空间。,在多个维度上都远超现有的目标检测基准数据集,既提供了 机遇,也带来了 挑战。原创 2025-06-18 19:44:10 · 1035 阅读 · 0 评论 -
通过自适应训练样本选择弥合基于锚点和无锚点检测之间的差距之ATSS论文阅读
多年来,对象检测领域一直由基于锚框(anchor-based)的检测器主导。近日,随着特征金字塔网络(FPN)和焦点损失(Focal Loss)的提出,锚框自由(anchor-free)检测器逐渐流行起来。本文首先指出,锚框检测器与锚框自由检测器的本质差异,其实在于训练中正负样本的定义方式,而这也是二者性能差距的根源。如果在训练时采用相同的正负样本定义,无论是从框(box)回归还是从点(point)回归,最终性能并无显著差异。这表明,当前目标检测方法中,正负样本的选取至关重要。基于此,我们提出了一种。原创 2025-06-16 17:26:03 · 903 阅读 · 0 评论 -
广义焦点丢失:学习用于密集目标检测的合格和分布式边界盒之GFL论文阅读
一阶段检测器通常将目标检测形式化为密集的分类与定位(即边界框回归)问题。分类部分通常使用 Focal Loss 进行优化,而边界框位置则在狄拉克δ分布下进行学习。最近,一阶段检测器的发展趋势是引入独立的预测分支来估计定位质量,所预测的质量可以辅助分类,从而提升检测性能。。我们发现现有方法存在两个问题:训练与推理阶段中,质量估计与分类的使用不一致(即,训练时分开优化,测试时却组合使用FCOS模型这样做);定位时采用的狄拉克δ分布不够灵活,无法处理真实场景中常见的模糊性与不确定性。原创 2025-06-16 17:25:33 · 942 阅读 · 0 评论 -
FCOS:全卷积单阶段目标检测之论文阅读
我们提出了一种全卷积的一阶段目标检测器(FCOS),以类比语义分割的方式,通过逐像素预测来解决目标检测问题。几乎所有最先进的目标检测器(如 RetinaNet、SSD、YOLOv3 和 Faster R‑CNN)都依赖于预定义的锚框。而我们提出的 FCOS 则无需锚框,也不需要候选区域生成。通过去除预定义的锚框集合,FCOS 完全避免了训练过程中与锚框相关的复杂计算(例如重叠度计算)。更重要的是,我们也省去了所有与锚框相关的超参数,这些超参数通常对最终检测性能非常敏感。原创 2025-06-16 14:43:53 · 948 阅读 · 1 评论 -
作为点的对象CenterNet论文阅读
检测器将图像中的物体表示为轴对齐的边界框。大多数成功的目标检测方法都会枚举几乎完整的潜在目标位置列表,并对每一个位置进行分类。这种做法既浪费又低效,并且需要额外的后处理。在本文中,我们采取了不同的方法。我们将物体建模为单个点——其边界框的中心点。我们的检测器使用关键点估计来寻找中心点,并回归预测所有其他物体属性,例如大小、三维位置、朝向,甚至姿态。基于中心点的方法 CenterNet 是端到端可微的,更简单、更快速,也比相应的基于边界框的检测器更准确。原创 2025-06-08 16:34:04 · 879 阅读 · 0 评论 -
用于小目标检测的归一化高斯Wasserstein距离(NWD)之论文阅读
检测小目标是一个非常具有挑战性的问题,因为小目标在图像中通常仅包含极少的像素。我们发现,当前最先进的检测器在小目标上的表现并不理想,主要原因在于小目标缺乏足够的外观信息。我们的一个关键观察是,像 IoU(交并比)及其扩展形式这样的评估指标,对小目标的位置偏移非常敏感,这种敏感性会在基于 anchor 的检测器中显著降低检测性能。为了解决这一问题,我们提出了一种用于小目标检测的新评估指标——Wasserstein 距离。原创 2025-06-08 15:17:59 · 728 阅读 · 0 评论 -
开放高分辨率卫星图像:WorldStrat数据集及其在超分辨率上的应用之论文阅读
计算机视觉与卫星影像可谓天作之合。几十年来,遥感和地球观测领域一直在探讨如何自动处理日益增长的影像数据。能够“看见”整个星球并对其进行大规模分析的吸引力,少有能及。过去三十年间,已有诸多尝试。民用可获得的影像分辨率不断提高,过去十年机器学习和计算机视觉的进步,也带来了许多有力的工具。其中一些科研成果十分瞩目,例如 Jean 等人在 2016 年的工作(Jean et al., 2016)。原创 2025-05-08 09:12:29 · 883 阅读 · 1 评论 -
小目标检测的集成融合论文阅读
图 1(a) 展示了我们所提框架的总体流程,该框架由两个阶段组成:数据准备阶段和模型集成阶段。在数据准备阶段,我们采用第 2.2 节介绍的 CP(Copy-Paste)数据增强技术,对 SOD4SB 提供的训练数据进行扩充。本阶段中,首先对 SOD4SB 数据集中的图像进行裁剪,然后从 SOD4SB 数据集或 Birds Flying 数据集[40]中提取鸟类目标,经过缩放与粘贴操作生成增强图像。增强后数据被送入模型集成阶段,在该阶段中训练并收集多个模型变体,将它们组合成一个集成。原创 2025-04-28 10:49:23 · 1274 阅读 · 1 评论 -
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文阅读
这篇论文提出了一种新的视觉 Transformer——Swin Transformer,它能够作为通用的计算机视觉骨干网络。将 Transformer 从语言领域转移到视觉领域面临诸多挑战,这些挑战源于两者之间的差异,例如视觉实体尺度的巨大变化以及图像中像素的高分辨率与文本中单词相比的差异。为了解决这些问题,我们。原创 2025-03-19 20:34:46 · 1194 阅读 · 0 评论 -
CBNet:一种用于目标检测的复合骨干网架构之论文阅读
现代顶级性能的目标检测器在很大程度上依赖于骨干网络,而骨干网络的进步通过探索更高效的网络结构带来了持续的性能提升。本文提出了一种新颖且灵活的。。。CBNet 对于不同骨干网络和检测器头部设计具有较强的泛化能力。在无需对复合骨干网络进行额外预训练的情况下,CBNet 可适用于各种骨干(如基于 CNN 和基于 Transformer 的)以及大多数主流检测器的头部设计(如单阶段与两阶段、基于锚框与非锚框)。原创 2025-03-14 17:41:37 · 1412 阅读 · 0 评论 -
水雷探测用水下航行器侧扫声纳成像数据之论文阅读
在过去的十年中,无人驾驶车辆在水下领域变得越来越普及,因为它们通过减少人类参与来提高操作可靠性。在水下操作时,环境感知对于安全以及导航和轨迹控制等任务至关重要。水雷探测是最危险的操作之一,因为这些系统可能会损坏车辆,若由人操作,还会危及生命。通过侧扫声呐图像自动检测水雷可以提高安全性,同时减少漏报。,其中包含足够的信息,。该数据集已被注释,可快速用于目标检测、分类或图像分割任务。收集此类数据集需要大量的时间和成本,这增加了其稀有性以及对研究和工业发展的重要性。原创 2025-03-12 15:51:41 · 1083 阅读 · 0 评论 -
论文阅读之基于Syn2Real域的侧扫声纳类水雷目标探测
由于现实世界数据的稀缺性,基于深度学习的水下水雷探测受到了限制。这种稀缺性导致过拟合,即模型在训练数据上表现良好,但在未见数据上表现不佳。本文提出了一种使用扩散模型的Syn2Real (Synthetic to Real)域泛化方法来解决这一挑战。我们证明了由DDPM和DDIM模型产生的带有噪声的合成数据,即使不是完全真实的,也可以有效地增加真实世界的样本用于训练。最终采样图像中的残余噪声提高了模型对具有固有噪声和高变化的真实世界数据的泛化能力。。原创 2025-02-28 13:49:09 · 1187 阅读 · 0 评论 -
基于CycleGAN和改进YOLOv8的侧扫声纳小样本目标检测方法
由于成本低廉且易于部署,侧扫声呐是最广泛使用的水下探测仪器之一。然而,海洋环境的复杂性以及目标获取的困难限制了侧扫声呐的检测精度。为了解决这些问题,本研究提出了一种基于Cycle-Consistent Generative Adversarial Network(CycleGAN)模型和改进YOLOv8模型的少样本目标检测方法。首先,考虑到获取侧扫声呐目标图像的困难,所提方法利用CycleGAN模型从光学图像生成伪侧扫声呐图像进行数据增强。原创 2025-02-27 11:18:43 · 1454 阅读 · 0 评论 -
自监督学习用于现实世界目标检测:综述
自监督学习(SSL)是计算机视觉领域一个令人兴奋且活跃的研究方向。它通过使用精心设计的前置任务对深度学习网络(通常仅为编码器)进行无监督训练。该前置任务的目的是帮助网络学习与下游任务相关的特征或不变性。在文献中,SSL方法已被证明能提高许多应用场景中的最先进(SOTA)性能。更具体而言,SSL使网络能够从大型未标记数据集中学习通用特征,这些特征在转移到最终任务时,能够改善在困难的微调条件下的表现(例如,标注数据很少或计算资源有限)。基本的SSL方法涉及实例区分,旨在建模在潜在空间中数据子集之间的决策边界。原创 2025-02-25 17:35:06 · 990 阅读 · 0 评论 -
VITDET论文阅读(探索用于目标检测的纯视觉变压器主干)
我们的简单设计取得了令人惊讶的结果。我们发现,在使用普通ViT骨干的情况下,FPN(特征金字塔网络)设计并不是必需的,其带来的好处可以通过从一个大步长(16)单尺度特征图构建的简单金字塔来有效地实现。原创 2025-02-19 00:04:45 · 717 阅读 · 1 评论 -
VIT论文阅读与理解
我们使用Adam(Kingma&Ba,2015)训练所有模型,包括ResNets,其中β1=0:9,β2=0:999,批量大小为4096,并应用0.1的高权重衰减,我们发现这对所有模型的转移都很有用(附录D.1显示,与常见做法相比,Adam在我们的环境中对ResNets的效果略好于SGD)。为了尝试不同的序列长度,我们要么(i)取常规ResNet50的第4阶段的输出,要么(ii)删除第4阶段,在第3阶段放置相同数量的层(保持总层数),然后取这个扩展的第3阶段的输出。即,较近的块通常会有相似的位置嵌入。原创 2025-01-19 16:31:10 · 974 阅读 · 1 评论 -
Transform论文阅读之Attention Is All You Need(一)and Vit
这篇论文的摘要介绍了一种名为Transformer的新型神经网络架构,该架构完全基于自注意力机制,用于解决序列转换任务。Transformer在机器翻译任务中取得了领先的性能,并且相比基于循环或卷积神经网络的传统架构,Transformer的训练速度显著更快。此外,还提到了Transformer在处理其他输入输出模态(如图像、音频和视频)方面的潜在应用,并强调了其在减少顺序计算方面的优势。总的来说,摘要突出了Transformer作为一种基于注意力机制的模型架构,其在序列转换任务中的性能优势和潜在应用前景。原创 2025-01-19 13:29:25 · 351 阅读 · 2 评论 -
语义分割大模型RSPrompter论文阅读
摘要-利用大量训练数据(SA-1B),Meta-AI Research提出的基础分段任意模型(SAM)具有显著的泛化能力和零样本能力。尽管如此,作为一种类别不可知的实例分割方法,SAM在很大程度上依赖于之前涉及点、框和粗粒度掩码的手动指导。此外,它在遥感图像分割任务中的性能还有待充分探索和证明。在本文中,我们考虑设计一种基于SAM基础模型的遥感图像自动实例分割方法,结合语义类别信息。受即时学习的启发,我们提出了一种方法来学习SAM输入的适当提示的生成。原创 2023-07-05 16:26:49 · 3817 阅读 · 0 评论 -
自监督语义分割面模型——(MAE)论文阅读与代码解析
本文证明了掩码自编码器(MAE)是一种可扩展的计算机视觉自监督学习算法。我们屏蔽输入图像的随机补丁并重建缺失的像素。它基于两个核心设计。首先,我们开发了一个非对称编码器-解码器架构,其中一个编码器仅对补丁的可见子集(没有掩码令牌)进行操作,以及一个轻量级解码器,该解码器从潜在表示和掩码令牌重建原始图像。其次,我们发现掩盖输入图像的高比例,例如75%,产生了一个重要的和有意义的自我监督任务。这两种设计的结合使我们能够高效地训练大型模型:我们加速了训练(3倍或更多)并提高了准确性。原创 2023-07-17 17:46:13 · 3642 阅读 · 1 评论 -
语义分割大模型SAM论文阅读
我们介绍了分割一切(SA)项目:一个新的图像分割任务,模型和数据集。在数据收集循环中使用我们的高效模型,我们建立了迄今为止(到目前为止)最大的分割数据集,在1100万张许可和尊重隐私的图像上拥有超过10亿个掩模。该模型被设计和训练为提示,因此它可以将零拍摄转移到新的图像分布和任务。我们评估了它在许多任务中的能力,发现它的零射击性能令人印象深刻-通常与之前的完全监督结果相竞争甚至优于。原创 2023-07-07 13:57:53 · 2014 阅读 · 1 评论