介绍
摘要
许多当前的研究直接采用多速率深度扩张卷积,以同时从一个输入特征图中捕获多尺度上下文信息,从而提高实时语义分割的特征提取效率。然而,由于不合理的结构和超参数,这种设计可能导致难以获取多尺度上下文信息。为了降低获取多尺度上下文信息的难度,我们提出了一种高效的多尺度特征提取方法,将原来的单步方法分解为两个步骤:区域残差化-语义残差化。在这种方法中,多速率深度扩张卷积在特征提取中扮演了一个简单的角色:在第二步中基于第一步提供的每个简明区域形式的特征图,执行具有一个期望感受野的简单基于语义的形态滤波,以提高其效率。此外,还详细说明了每个网络阶段的扩张率和扩张卷积的容量,以充分利用所有可以实现的区域形式的特征图。相应地,我们分别为高层和低层网络设计了一个新颖的扩张残差(DWR)模块和一个简单反转残差(SIR)模块,并形成了一个强大的DWR分割(DWRSeg)网络。在Cityscapes和CamVid数据集上的大量实验表明,我们的方法通过在准确性和推理速度之间实现最先进的权衡,展示了其有效性,并且重量更轻。在没有预训练或使用任何训练技巧的情况下,我们在Cityscapes测试集上以每秒319.5帧的速度在一张NVIDIA GeForce GTX 1080 Ti显卡上达到了72.7%的mIoU,这超过了最新方法的69.5帧每秒的速度和0.8%的mIoU。代码和训练好的模型已公开可用。
YOLO11目标检测创新改进与实战案例专栏
点击查看文章目录: YOLO11创新改进系列及项目实战目录 包含卷积,主干 注意力,检测头等创新机制 以及 各种目标检测分割项目实战案例
点击查看专栏链接: YOLO11目标检测创新改进与实战案例</