【YOLOv10改进-注意力机制】iRMB：倒置残差移动块 (论文笔记+引入代码)

YOLO大师

已于 2024-07-20 10:06:29 修改

阅读量1.6k

点赞数 25

CC 4.0 BY-SA版权

分类专栏： YOLOv10 创新改进文章标签： YOLO 论文阅读 yolov10 人工智能目标跟踪

于 2024-06-29 23:38:16 首次发布

原创文章，禁止任何形式转载！

本文链接：https://blog.csdn.net/shangyanaf/article/details/140072635

YOLOv10 创新改进专栏收录该内容

67 篇文章 ¥99.90 ¥299.90

订阅专栏

YOLOv10目标检测创新改进与实战案例专栏

改进目录: YOLOv10有效改进系列及项目实战目录：卷积，主干注意力，检测头等创新机制

专栏链接: YOLOv10 创新改进有效涨点

介绍

摘要

本论文旨在开发现代、高效、轻量的密集预测模型，并在参数、浮点运算次数与性能之间寻求平衡。虽然倒置残差块（IRB）是轻量级卷积神经网络（CNN）的重要基础，但在基于注意力的研究中尚缺类似的构件。本研究从统一视角出发，结合高效IRB和有效的Transformer组件，重新考虑轻量级基础架构。我们将基于CNN的IRB扩展到基于注意力的模型，并提出了一种单残差元移动块（MMB）用于轻量级模型设计。基于简单而有效的设计原则，我们推出了一种新型的倒置残差移动块（iRMB），并以此为基础构建了一个类似于ResNet的高效模型（EMO），适用于下游任务。在ImageNet-1K、COCO2017和ADE20K基准上的大量实验表明，我们的EMO在性能上超越了最先进的方法，例如，EMO-1M/2M/5M在Top-1准确率上分别达到了71.5、75.1和78.4，超过了同等级别的CNN-/基于注意力的模型，同时在参数、效率和准确度上取得了良好的权衡：在iPhone14上运行速度比EdgeNeXt快2.8-4.0倍。

创新点

iRMB (Inverted Residual Mobile Block) 的创新点在于其结合了CNN和Transformer架构的优点，为移动端应用设计了一个简单而高效的模块。这一设计旨在解决移动设备上对存储和计算资源限制下的高效模型需求，同时克服了现有轻量级CNN模型和Transformer模型的局限性。以下是iRMB的主要创新点：

融合CNN与Transformer的优点：iRMB吸收了CNN在建模短距离依赖方面的高效性，以及Transformer在动态建模长距离交互方面的能力。这种融合提供了一个均衡的解决方案，使得模型既能捕捉局部特征，也能理解全局上下文。
简单高效的设计：通过精心设计的Meta Mobile Block概念，iRMB通过级联的多头自注意力(MHSA)和卷积运算实现了高效的特征提取和信息流动。这种设计不仅保持了模型的高效性，而且简化了模型结构，便于移动端应用的部署和优化。
优化的资源消耗：相对于传统的Transformer模型，iRMB通过特定的设计减少了参数量和计算量(FLOPs)，使其更适合在资源受限的移动设备上运行。这一点通过在ImageNet-1K、COCO2017和ADE20K等基准测试中展示了其相对于同类模型的优越性能。
实现特定的技术突破：iRMB的设计克服了传统CNN模型由于其静态归纳偏