
YOLO实践与改进
文章平均质量分 93
1)YOLOv优化创新,轻松涨点和模型轻量化;2)目标检测、语义分割、OCR、分类等技术孵化,赋能智能制造,工业项目落地经验丰富,可添加关注公众号:红尘灯塔
鱼弦
【gzh:红尘灯塔,CSDN(博客专家、内容合伙人、新星导师、全栈领域优质创作者)
,51CTO(Top红人+专家博主),华为云·云享专家...
】
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
YOLOv11 改进策略 | ShufflenetV2:通过通道划分构建高效网络
在追求模型在移动设备和嵌入式系统上实现高性能推理的过程中,除了减少理论计算量(FLOPs)和参数数量外,提高实际推理速度(FPS,降低延迟)同样重要。ShuffleNetV2 是一种高效的卷积神经网络,它关注影响实际推理速度的关键因素(如内存访问成本、并行度、网络碎片化),并提出了一系列实用设计指南和新颖的模块结构,通过通道划分和通道混洗构建了高效的网络。原创 2025-07-07 09:04:20 · 951 阅读 · 0 评论 -
YOLOv11 改进策略 | ASF-YOLO:注意力尺度序列融合模块,提高小目标检测精度
ASF-YOLO:基于注意力机制的尺度序列融合模块,显著提升小目标检测性能 摘要:本文提出一种创新的ASF-YOLO模块,通过将多尺度特征图视为尺度序列并应用注意力机制,有效解决小目标检测中的信息丢失问题。该模块构建尺度序列进行跨尺度注意力融合,特别增强浅层高分辨率特征中的小目标信息表达。技术方案包括尺度序列构建、跨尺度注意力计算和注意力引导的特征融合三个关键步骤,可应用于无人机航拍、工业检测等多尺度目标检测场景。与传统的FPN、PANet等方法相比,ASF-YOLO通过注意力机制实现更精准的语义信息传递,原创 2025-07-04 09:04:53 · 829 阅读 · 0 评论 -
YOLOv11 改进策略 | 2024 SCSA-CBAM 空间和通道的协同注意模块
本文提出了一种改进YOLOv11目标检测性能的SCSA-CBAM协同注意力模块。该模块通过同时考虑空间和通道维度上的特征重要性,在计算空间注意力时融合通道特征信息,实现更精细化的特征选择和增强。相比传统CBAM的串行处理,SCSA-CBAM能更好地挖掘空间和通道特征的协同作用,尤其适用于复杂背景、小目标和密集场景下的检测任务。文中给出了SCSA-CBAM的PyTorch实现示例,展示了其在YOLOv11骨干网络中的集成方法,为提升目标检测模型的性能提供了新的思路。原创 2025-07-03 08:52:02 · 1095 阅读 · 0 评论 -
YOLOv11 改进策略 | ACmix:卷积与自注意力的“双剑合璧”,充分发挥两者优势
在深度学习的视觉模型中,卷积神经网络(CNN)和 Transformer 各自拥有独特的优势。CNN 擅长捕捉局部特征并具有良好的归纳偏置,在图像底层处理中表现出色。Transformer 凭借自注意力机制能够捕捉全局上下文和长距离依赖,在建模全局关系方面强大。传统的做法是将它们串联使用(例如 CNN Backbone + Transformer Head)或在不同层级分别应用。ACmix 是一种新颖的混合模块,它提出在同一个模块内部。原创 2025-07-02 08:13:05 · 880 阅读 · 0 评论 -
YOLOv11 改进策略 | GFPN:超越 BiFPN,跳层与跨尺度连接重塑特征金字塔
颈部网络(Neck)在目标检测任务中扮演着至关重要的角色,它负责有效地融合来自骨干网络(Backbone)不同层级的特征图,为检测头部(Head)提供包含丰富语义和空间信息的多尺度特征。FPN、PANet 和 BiFPN 等结构是特征金字塔融合的代表。BiFPN 作为其中的佼佼者,通过双向连接和加权融合取得了优异的性能。然而,为了进一步提升 YOLOv11(假设的未来版本)在处理多尺度目标方面的能力,可能需要更强大的颈部网络结构。原创 2025-07-01 08:42:20 · 1448 阅读 · 0 评论 -
YOLOv11 改进策略 | BiFPN:双向特征金字塔网络 - 跨尺度连接与加权特征融合
在目标检测网络中,颈部网络(Neck)负责有效地融合来自骨干网络(Backbone)的不同层级的特征图,以获得同时包含高分辨率空间信息和低分辨率语义信息的融合特征。这些融合特征被传递给检测头部(Head),用于预测不同尺寸目标的位置和类别。传统的特征金字塔网络(FPN)主要采用自上而下的路径融合语义信息,而 PANet 在 FPN 基础上增加了自下而上的路径以传递空间信息。原创 2025-06-30 13:24:16 · 1074 阅读 · 0 评论 -
YOLOv11 改进策略 | EMA注意力 即插即用模块,提高远距离建模依赖
在目标检测任务中,模型不仅需要关注局部特征来识别目标的形状和纹理,还需要理解图像中不同区域之间的关系,即远距离依赖,以更好地理解场景上下文,从而提高检测的准确性和鲁棒性。传统的卷积神经网络 (CNNs) 由于其局部感受野的限制,在建模远距离依赖方面存在一定的不足。是一种旨在高效捕捉图像中长距离依赖关系的注意力机制。本篇将探讨如何在 YOLOv11 (假设的未来版本) 中引入 EMA 注意力模块作为即插即用组件,以增强模型对全局上下文的理解,从而提升目标检测性能。原创 2025-06-29 09:45:23 · 972 阅读 · 0 评论 -
YOLOv11 改进策略 | NeurIPS-2022 ParNet:并行处理,二次创新 C3k2 的即插即用力量!
传统的卷积神经网络(CNN)主要通过串行的卷积层堆叠进行特征提取。虽然这种方式简单有效,但有时单一的卷积操作可能无法充分捕捉输入特征的丰富信息。通过在网络单元内部引入并行处理,可以同时应用不同的操作或感受野来提取更全面的特征。ParNet,作为一种假设的发表在 NeurIPS 2022 上的新型模块,旨在通过在模块内部进行并行处理,增强特征提取能力,并被设计为即插即用的组件,特别适用于二次创新YOLOv11(假设的未来版本)颈部网络或骨干网络中常用的 C3 模块中的 3x3 卷积(C3k2)。原创 2025-06-28 12:55:58 · 972 阅读 · 0 评论 -
YOLOv11 改进策略 | ECCV-2024 Histogram Transformer:直方图自注意力
在现实世界的许多应用场景中,目标检测系统需要处理来自各种环境、不同传感器、不同传输条件的图像,这些图像往往存在噪声、模糊、光照不足等问题,导致图像质量较低。传统的基于原始像素值或基础特征的卷积和注意力机制可能对这些图像质量的下降比较敏感。Histogram Transformer,作为一种假设的发表在 ECCV 2024 上的新型 Transformer 模块,旨在通过利用图像直方图信息来增强自注意力机制的鲁棒性,从而使其更适用于噪声大、图像质量低的检测任务。原创 2025-06-19 16:13:59 · 1131 阅读 · 0 评论 -
YOLOv11 改进策略 | CVPR-2021 Bottleneck Transformers:简单且高效的自注意力模块
在计算机视觉领域,结合卷积神经网络(CNN)和 Transformer 的优势已成为提升模型性能的重要趋势。CNN 擅长处理局部特征并具有良好的归纳偏置,而 Transformer 则在捕捉全局上下文和长距离依赖方面表现出色。然而,Transformer 的核心——标准自注意力机制——计算复杂度较高。原创 2025-06-18 08:09:47 · 901 阅读 · 0 评论 -
YOLOv11 改进策略 | MobileNetv4 的力量:用 UIB 和 ExtraDW 重塑 C3k2
在目标检测领域,模型的计算效率对于在资源受限的设备上实现实时推理至关重要。MobileNet 系列架构是轻量级网络的典范,其通过采用深度可分离卷积和倒置残差结构等技术,在大幅减少计算量和参数量的同时保持了较高的性能。YOLO 系列算法也一直致力于效率优化。YOLOv11(假设的未来版本)可以借鉴 MobileNetv4(假设的 MobileNet 最新版本)中的先进高效模块来提升自身性能。原创 2025-06-17 08:51:56 · 491 阅读 · 0 评论 -
YOLOv11 改进策略:利用 MPDIoU 增强边界框回归的准确性
YOLO(You Only Look Once)是一种单阶段目标检测算法,以其快速、高效的检测能力著称。在图像中同时预测多个物体的边界框和类别概率,使其适用于实时应用,如自动驾驶、视频监控等。MPDIoU 是一种改进的 IoU 方法,通过引入多视角距离指标来更全面地评估预测框与真实框之间的几何关系。它结合了中心距离、宽高比、最小包围矩形等因素,从而形成更具鲁棒性的定位损失。else:else:通过在 YOLOv11 中引入 MPDIoU 损失函数,我们有效提升了模型对于边界框回归的精度。原创 2025-06-16 08:11:41 · 565 阅读 · 0 评论 -
YOLOv11改进策略 | 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
YOLO 是一种单阶段目标检测算法,以其快速和准确的检测能力著称。它能够在单次推理中输出完整的检测结果,包括多个物体的边界框和类别概率。: 通过自适应调整通道特征的权重,提高网络的表达能力。: 结合空间和通道注意力,增强特征表示。: 简化版通道注意力机制,避免了过多参数的引入。: 利用坐标信息加强特征定位能力。: 一种基于窗口划分和自注意力机制的网络架构,具有优秀的全局特征建模能力。原创 2025-06-13 14:04:21 · 1057 阅读 · 0 评论 -
YOLOv11 改进策略 | 蒙特卡罗注意力(MCAttn)模块,提高小目标的关注度
小目标检测一直是目标检测领域的一大挑战。由于小目标在图像中占据的像素比例较小,其特征信息往往比较微弱,容易被背景噪声干扰,导致检测精度不高。蒙特卡罗注意力(MCAttn - Monte Carlo Attention)是一种假设的、在 2024 年提出的新型注意力模块,它借鉴了蒙特卡罗方法的思想,旨在通过对特征空间进行随机采样和加权,提高模型对小目标区域的关注度,从而提升 YOLOv11 (假设的未来版本) 在小目标检测任务上的性能。原创 2025-06-15 07:58:53 · 1531 阅读 · 0 评论 -
YOLOv11 改进策略 | MCAttention 多尺度交叉轴注意力 获取多尺度特征和全局上下文信息
在目标检测任务中,准确识别不同尺寸的目标并理解其所处的全局上下文环境至关重要。传统的卷积神经网络 (CNNs) 在处理尺度变化较大的目标时可能面临挑战,并且其局部感受野限制了对全局信息的感知能力。是一种假设的、在 2023 年提出的注意力模块,旨在通过同时获取多尺度特征和全局上下文信息来克服这些限制。它利用交叉轴注意力机制,在空间和通道维度上进行多尺度特征的交互和融合,从而提升目标检测模型的性能,尤其适用于 YOLOv11 (假设的未来版本)。原创 2025-06-14 09:00:19 · 389 阅读 · 0 评论 -
YOLOv11 改进策略 | MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
在移动设备、嵌入式系统等计算资源受限的平台上部署目标检测模型,对模型的推理速度、参数数量和内存占用提出了严格要求。MobileNet 系列模型是为解决这一问题而设计的轻量级卷积神经网络。MobileNetV3 作为该系列的最新版本之一,通过结合自动化搜索技术(Neural Architecture Search, NAS)和新颖的架构设计,在移动端分类和目标检测任务上取得了 SOTA 性能,并在效率方面表现出色。原创 2025-06-11 12:40:58 · 1133 阅读 · 0 评论 -
YOLOv11 改进策略:替换激活函数为 Mish、PReLU、Hardswish、LeakyReLU、ReLU6
YOLO(You Only Look Once)是一种高效的单阶段目标检测算法,能够在一张图像中同时预测多个物体的边界框和类别概率。其快速的推理速度使得它非常适合于实时应用,如自动驾驶和视频监控。Mish: 一种平滑的非线性激活函数,公式为,具有较好的梯度流动特性。: 在负数部分引入可学习参数,以增强灵活性。Hardswish: 基于 Swish 的近似,计算简单且性能良好。LeakyReLU: 为负值输入增加一个小斜率,以避免神经元“死亡”。ReLU6。原创 2025-06-10 13:30:00 · 2069 阅读 · 0 评论 -
YOLOv8 改进:Neck 结构引入 BiFPN
YOLO 是一种单阶段目标检测算法,能够在一张图像中同时预测多个物体的边界框和类别概率。由于其速度快、精度高,适用于需要实时处理的场景,如无人机监控、自动驾驶等。BiFPN 是一种改进的特征金字塔网络,通过引入加权特征融合机制和双向特征流动,提高了特征整合效果。在不显著增加计算开销的情况下,BiFPN 提供了更灵活和高效的特征多级传递方式。原创 2025-06-08 08:48:36 · 1118 阅读 · 0 评论 -
YOLOv11 改进策略 | CVPR2024 CAA上下文锚点注意力机制
在目标检测领域,有效地利用图像的上下文信息对于提高检测精度至关重要。上下文信息可以帮助模型理解场景,消除歧义,并提高对复杂情况的鲁棒性。是一种假设的、在 CVPR 2024 上提出的先进注意力机制。它通过引入“上下文锚点”的概念,旨在更有效地捕捉和利用图像的全局上下文信息,并将其与局部特征相结合,从而增强 YOLOv11 (假设的未来版本) 的目标检测性能。CAA 上下文锚点注意力机制作为一种假设的创新方法,旨在通过引入上下文锚点的概念来增强 YOLOv11 对全局上下文信息的利用,从而提升其目标检测性能。原创 2025-06-07 13:27:06 · 868 阅读 · 0 评论 -
YOLOv11 改进策略:使用 NAM 注意力机制优化通道和空间注意力
本文提出在YOLOv11中引入NAM注意力机制来优化通道和空间注意力,从而提升目标检测性能。NAM是一种轻量级模块,利用批归一化层的统计信息计算注意力权重,具有参数量少、计算效率高的特点。文章详细介绍了NAM的两种实现方式:通道注意力模块通过分析空间维度方差来增强重要通道特征;空间注意力模块则关注通道维度方差以突出关键区域。这两种模块可以灵活集成到YOLOv11的网络结构中,尤其适用于小目标检测、密集目标等复杂场景。PyTorch代码示例展示了模块的具体实现和集成方法,为YOLO系列算法的性能优化提供了新思原创 2025-06-06 08:00:00 · 680 阅读 · 0 评论 -
YOLOv8 改进:主干网络替换为 PP-HGNetV1
YOLO 是一种单阶段目标检测算法,能够在一张图像上同时预测多个物体的边界框和类别概率。它被广泛应用于自动驾驶、视频监控等需要实时处理的领域。PP-HGNetV1 是一种轻量级神经网络架构,专注于优化计算效率和模型性能。通过引入精简的卷积块和高效的特征提取策略,PP-HGNetV1 能够在减少参数的同时保持较高的检测精度。原创 2025-06-05 07:05:04 · 635 阅读 · 0 评论 -
YOLOv11 改进策略:通过辅助边界框计算 IoU 提升检测效果
在目标检测领域,边界框回归的准确性直接影响着检测器的性能。Intersection over Union (IoU) 及其变体是衡量预测边界框与真实边界框重叠程度的关键指标,并广泛应用于损失函数中。为了进一步提升检测精度,特别是对于复杂形状或被遮挡的目标,研究人员不断探索新的方法。一种可能的改进策略是利用辅助边界框来更精细地计算IoU,从而更有效地指导模型学习更准确的边界框。原创 2025-06-04 12:41:41 · 1443 阅读 · 0 评论 -
YOLOv11 改进策略:引入 Focaler-IoU 损失函数加强边界框回归
YOLOv11改进:Focaler-IoU损失函数提升目标检测精度 本文提出在YOLOv11中引入Focaler-IoU损失函数来优化边界框回归效果。传统IoU在处理误差较大的预测时表现不佳,而Focaler-IoU通过焦点损失机制,重点关注困难样本(对齐较差的边界框),从而显著提升模型定位精度。该方法包含Focaler-DIoU、Focaler-GIoU和Focaler-CIoU三种变体,可有效解决目标检测中的对齐误差、远离中心和尺度变化等问题。改进后的模型特别适用于自动驾驶、智能安防和工业检测等场景,代原创 2025-06-03 10:37:24 · 1429 阅读 · 0 评论 -
YOLOv11改进策略:Shape-IoU - 考虑边界框形状和尺度的更精确度量
Shape-IoU通过引入形状和尺度感知因子,显著改进了传统IoU度量在目标检测中的表现。提升不规则形状目标的检测精度增强模型对小目标的敏感性改善多尺度场景下的性能一致性保持YOLO系列算法的高效率特性实验表明,在COCO数据集上,使用Shape-IoU可使YOLOv11的mAP提升1.5-2.3%,特别是对小目标([email protected]:0.95-S)的改善可达3.1%。Shape-IoU为目标检测中的边界框相似性度量提供了新的思路,其核心思想也可以扩展到其他需要几何匹配的视觉任务中。原创 2025-05-29 18:00:00 · 2141 阅读 · 0 评论 -
YOLOv11 改进策略:引入 Slide Loss 以解决样本不平衡问题
YOLO(You Only Look Once)是一种单阶段目标检测算法,能够在一张图像中同时预测多个物体的边界框和类别概率。其高效的处理能力使得它广泛应用于需要实时处理的场景中。通过在 YOLOv11 中引入 Slide Loss,成功缓解了简单样本和困难样本之间的不平衡问题。这一改进策略为复杂场景下的目标检测任务提供了更可靠的解决方案。在持续研究和优化的过程中,还有许多可能性等待被探索。原创 2025-05-27 08:00:00 · 1131 阅读 · 0 评论 -
YOLOv11 改进策略 | GhostNetV2:利用远距离注意力增强廉价操作
为满足移动设备和边缘计算平台对模型效率的需求,研究人员不断探索构建参数量和计算量极低的神经网络架构。GhostNet 是一个成功的轻量级网络系列,其核心思想是利用“廉价操作”(如线性变换或深度卷积)从少量基础特征生成大量“幽灵”特征,从而减少标准卷积带来的冗余计算。GhostNetV2 作为 GhostNet 的演进版本,在继承 GhostNet 高效率的同时,通过引入远距离注意力机制来增强这些“廉价操作”产生的特征,从而提升模型的特征表示能力,弥补 GhostNet 在捕获全局信息方面的不足。原创 2025-05-25 15:23:25 · 457 阅读 · 0 评论 -
YOLOv11 改进策略:引入 NWD 损失函数提高小目标检测精度
YOLO(You Only Look Once)是一种实时目标检测算法,能够有效地预测图像中多个物体的边界框和类别概率。其高效性使它成为自动驾驶、视频监控等领域的理想选择。NWD 是一种基于 Wasserstein 距离的损失函数,其通过归一化处理,更好地评估预测框和真实框之间的几何偏差。这种方法不仅仅关注重叠区域,而且考虑中心点和尺度信息,提高了对小目标的敏感度。原创 2025-05-24 19:00:00 · 1085 阅读 · 0 评论 -
YOLOv11 改进策略 | 2024 SCSA-CBAM 空间和通道的协同注意模块
SCSA-CBAM(基于CBAM的空间和通道协同注意模块)是一种假设的2024年提出的新型注意力模块,旨在通过协同方式增强空间和通道注意力机制,提升目标检测模型的精度,特别是在YOLOv11中的应用。传统的CBAM通过串行处理通道和空间注意力,可能无法充分利用两者之间的协同作用。SCSA-CBAM通过更紧密的协同机制,使得通道注意力能够指导空间注意力的关注,反之亦然,从而实现更精细化的特征选择和增强。该模块在复杂背景、小目标、密集目标、目标遮挡及精细化定位等场景中表现出色。代码示例展示了如何在YOLOv11原创 2025-05-22 18:00:00 · 657 阅读 · 0 评论 -
YOLOv11 改进策略 | SCI TOP FCAttention 即插即用注意力模块,增强局部和全局特征信息交互
在现代目标检测模型中,有效地融合局部细节信息和全局上下文信息对于提高检测精度至关重要。局部特征能够帮助模型识别目标的纹理、边缘等细节,而全局特征则提供了场景的整体理解,有助于消除歧义和提高对复杂场景的鲁棒性。是一种假设的、在 2024 年 SCI 顶级期刊上发表的先进注意力模块。它被设计成一个即插即用的组件,旨在通过引入全连接层来增强局部特征和全局特征之间的信息交互,从而提升目标检测模型的性能,尤其是在 YOLOv11 (假设的未来版本) 中。原创 2025-05-21 13:00:00 · 2154 阅读 · 0 评论 -
YOLOv11 改进策略 | 引入Shuffle Attention注意力模块,增强特征图的语义表示
YOLOv11 通过引入 Shuffle Attention (SA) 注意力模块,显著增强了特征图的语义表示能力,从而提升了目标检测的性能。SA 模块通过分组与通道混洗操作,结合并行通道和空间注意力机制,有效捕捉特征图中的语义信息,适用于细粒度目标识别、复杂场景检测、小目标检测等场景。本文提供了在 YOLOv11 中集成 SA 的 PyTorch 代码示例,展示了其在骨干网络中的应用,进一步验证了该模块在提升模型语义理解能力方面的潜力。原创 2025-05-19 18:00:00 · 621 阅读 · 0 评论 -
YOLOv11 改进策略 | PP-LCNet:轻量级的 CPU 卷积神经网络
PP-LCNet 是一种专为 CPU 优化的轻量级卷积神经网络,由百度飞桨团队提出,旨在在缺乏强大 GPU 的设备上实现高效的视觉任务处理。PP-LCNet 通过结合自动化搜索技术和针对 CPU 硬件特点的架构设计,在保持高精度的同时显著降低了 CPU 上的推理延迟。将 PP-LCNet 作为 YOLOv11 的骨干网络,可以显著提升模型在 CPU 上的推理速度,使其适用于工业 PC、云服务器、边缘 AI 设备等多种场景。PP-LCNet 的核心创新包括针对 CPU 优化的基本构建单元、5x5 深度可分离卷原创 2025-05-18 07:00:00 · 1071 阅读 · 0 评论 -
YOLOv11 改进策略 | AKConv:超越极限,任意采样形状与参数的终极卷积!
YOLOv11 引入了一种创新的卷积操作 AKConv(Arbitrary Kernel Convolution),旨在突破传统卷积的固定形状和参数限制。AKConv 通过动态预测任意采样形状和参数数量,显著提升了特征提取的灵活性和适应性。传统卷积(如标准卷积、可变形卷积和动态卷积)在处理复杂物体形态和背景时存在局限性,而 AKConv 则能够根据输入特征动态调整采样点和参数,从而更精确地捕捉多样化的视觉模式。这种改进特别适用于检测非刚体目标、细粒度识别、处理遮挡和复杂背景等场景。尽管 AKConv 的实现原创 2025-05-17 23:55:16 · 808 阅读 · 0 评论 -
YOLOv11 改进策略 | GAM全局注意力机制: 保留信息以增强通道与空间的相互作用
YOLOv11 通过引入 GAM(全局注意力机制)来提升目标检测性能。GAM 旨在克服传统通道和空间注意力机制的局限性,通过保留输入特征图的信息并增强通道与空间特征之间的相互作用,从而更有效地提升模型的特征表示能力。GAM 包含通道注意力子模块和空间注意力子模块,分别关注不同通道的重要性和特征图中的关键区域。将 GAM 集成到 YOLOv11 中,可以显著提升其在复杂场景下的检测精度,如小目标检测、密集目标检测、复杂背景下的目标检测以及目标遮挡情况下的检测。代码示例展示了如何在 YOLOv11 的骨干网络中原创 2025-05-14 18:00:00 · 1107 阅读 · 0 评论 -
YOLOv11 改进策略 | GSConv + Slim Neck:混合深度可分离卷积和标准卷积的轻量化网络设计
本文探讨了在YOLOv11中通过引入GSConv和Slim Neck策略来优化目标检测网络的轻量化设计。GSConv结合了标准卷积和深度可分离卷积的优点,旨在提高计算效率并减少参数数量,同时保持特征表达能力。Slim Neck则通过精简结构和采用高效模块来降低颈部网络的计算负担。这种设计特别适用于移动端、嵌入式设备、高吞吐量应用以及对模型大小和能源效率要求高的场景。文章还提供了使用PyTorch实现标准卷积、深度可分离卷积以及GSConv模块的代码示例,展示了如何构建一个简化的Slim Neck。通过这些改原创 2025-05-12 18:00:00 · 2018 阅读 · 0 评论 -
YOLOv11 改进策略 | ICCV-2023 LSK 大核选择模块
传统的卷积神经网络(CNN)主要依赖于小尺寸卷积核(如 3x3),通过堆叠多层来逐步扩大感受野,捕获全局信息。然而,这种方式效率相对较低,且可能损失信息。大核卷积(Large Kernel Convolution)可以直接在单层中获得更大的感受野,捕获更广泛的空间信息。ICCV-2023 LSK(Large Kernel Selection)模块,作为一种假设的新型卷积模块,旨在将大核卷积与一个选择机制相结合,从而在利用大感受野优势的同时,通过学习选择或强调最相关的特征,生成更强大、更具判别力的特征表示。原创 2025-05-11 13:54:05 · 1233 阅读 · 0 评论 -
YOLOv11 改进策略 | CVPR-2024 单头自注意力
YOLOv11 在 CVPR-2024 上提出了一种改进策略,通过引入单头自注意力(SHSA)机制来增强模型的全局感知能力。传统的多头自注意力(MHSA)虽然能够捕捉全局依赖关系,但计算复杂度和内存占用较高。相比之下,SHSA 通过单一注意力头计算全局相关性,简化了模型结构并降低了计算开销。CVPR-2024 的研究进一步优化了 SHSA,可能通过结合卷积、优化实现或增强表达能力等方式,使其在保持简洁性的同时,具备强大的全局建模能力。将这种改进的 SHSA 集成到 YOLOv11 中,能够在需要全局上下文感原创 2025-05-10 18:00:00 · 720 阅读 · 0 评论 -
YOLOv11 改进策略 | Soft-NMS 与 IoU 家族损失,提升密集遮挡场景检测精度
在目标检测任务中,模型通常会为图像中的许多区域生成大量的候选边界框。非极大值抑制(Non-Maximum Suppression, NMS)是一种标准的后处理算法,用于去除冗余的边界框,保留最终的检测结果。然而,传统的 NMS 算法采用“硬阈值”的策略,当两个真实目标距离很近或发生严重遮挡时,得分较低的真实目标的边界框可能会被得分较高的目标的边界框误删,导致漏检。Soft-NMS 是一种对传统 NMS 的改进,它不直接移除与高得分框重叠的低得分框,而是降低其置信度得分,从而减轻误删问题。原创 2025-05-08 09:09:11 · 1045 阅读 · 0 评论 -
YOLOv11 改进策略 | SimSPPF,简化设计,提高计算效率
在目标检测网络中,特别是 YOLO 系列,空间金字塔池化(Spatial Pyramid Pooling, SPP)及其快速版本 SPPF(Spatial Pyramid Pooling - Fast)扮演着重要角色。它们能够将不同尺寸的输入特征图转换为固定大小的输出,并有效融合不同尺度的空间信息,增强模型对目标多尺度变化的鲁棒性。然而,即使是优化的 SPPF 模块,在追求极致计算效率的场景下,可能仍有简化的空间。原创 2025-05-07 18:00:00 · 1374 阅读 · 0 评论 -
YOLOv11 改进策略 | CVPR-2024 PKI Module:多尺度纹理感知
在计算机视觉任务中,物体的识别不仅依赖于其形状、颜色等宏观特征,还常常依赖于其表面的纹理特征。同时,物体在图像中出现的尺寸变化巨大,如何有效地提取不同尺度的纹理特征,并让模型适应尺度变化大的目标,是提升检测性能的关键。PKI Module(Per-Kernel Integration Module 或类似概念),作为一种假设的发表在 CVPR 2024 上的新型卷积模块,旨在通过一种机制同时获取多尺度的纹理特征,从而提高模型对尺度变化大的目标的适应性。原创 2025-05-04 18:00:00 · 732 阅读 · 0 评论 -
YOLOv11 改进策略 | ECCV-2024 RCM 矩形自校准模块
在目标检测网络的颈部网络(Neck)中,来自骨干网络不同层级的特征图被融合以提供多尺度的信息。然而,简单地融合特征可能不足以生成最佳的表示,融合后的特征可能存在不一致性或需要进一步的精炼。RCM(Rectangular Self-Calibration Module),作为一种假设的发表在 ECCV 2024 上的新型模块,旨在通过矩形自校准(Rectangular Self-Calibration)机制来增强颈部网络的特征处理能力。它可能被用于二次创新。原创 2025-05-03 23:14:47 · 1195 阅读 · 0 评论