YOLOv10改进，YOLOv10添加DCNv4可变性卷积(windows系统成功编译)，全网最详细教程

挂科边缘

已于 2024-09-28 12:37:02 修改

阅读量1.2k

点赞数 16

CC 4.0 BY-SA版权

分类专栏： YOLOv10改进文章标签： YOLO 目标检测 python 人工智能深度学习计算机视觉

于 2024-08-26 17:05:18 首次发布

本文链接：https://blog.csdn.net/weixin_44779079/article/details/141567372

YOLOv10改进专栏收录该内容

71 篇文章 ¥159.90 ¥299.90

订阅专栏

在这里插入图片描述

原论文摘要

引入了可变形卷积 v4 (DCNv4)，这是一种为广泛视觉应用设计的高效且有效的操作算子。DCNv4通过两项关键增强解决了其前身DCNv3的局限性：1. 移除空间聚合中的softmax归一化，以增强其动态特性和表达能力；2. 优化内存访问以最小化冗余操作，从而加速计算。这些改进使得DCNv4相比DCNv3显著加快了收敛速度，并且处理速度大幅提升，前向传播速度超过三倍。DCNv4在多个任务中表现出色，包括图像分类、实例和语义分割，特别是在图像生成方面表现突出。当将DCNv4集成到生成模型（如潜在扩散模型中的U-Net）中时，它超越了基线模型，凸显了其提升生成模型性能的潜力。在实际应用中，将DCNv3替换为DCNv4并应用于InternImage模型创建FlashInternImage，速度提高高达80%，并且在无需进一步修改的情况下性能进一步提升。DCNv4在速度和效率方面的进步，加上其在多种视觉任务中的强大表现，展示了其作为未来视觉模型基础构建块的潜力。

DCNv4介绍

DCNv4在DCNv3中移除了softmax归一化，将介于0和1之间的调制标量转换为类似于卷积的无界动态权重。如图所示，这种改变进一步增强了DCN的动态性质，其中其他运算符具有一定的限制，例如有界值范围或具有输入无关聚合权的固定聚合窗口（卷积）。

在这里插入图片描述
(a) Attention 和 (b) DCNv3 使用动态权重在范围为0到1之间进行空间特征聚合。Attention的窗口（采样点集）对于每个位置是相同的，而DCNv3为每个位置使用一个专用窗口。
© 卷积具有更灵活的无界值范围来聚合权重，并为每个位置使用专用的滑动窗口，但窗口形状和聚合权重与输入无关。
(d) DCNv4 结合了它们的优势，使用自适应聚合窗口和具有无界值范围的动态聚合权重。