《博主简介》
小伙伴们好,我是阿旭。专注于计算机视觉领域,包括目标检测、图像分类、图像分割和目标跟踪等项目开发,也可提供模型对比实验等服务。
《------往期经典推荐------》
二、机器学习实战专栏【链接】,已更新31期,欢迎关注,持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】
五、YOLOv8改进专栏【链接】,持续更新中~~
六、YOLO性能对比专栏【链接】,持续更新中~
《------正文------》
1. 文章摘要
来自中科大、上海交大等团队提出的Mobile U-ViT,通过创新性地结合大核卷积与U型Transformer架构,在保持轻量化的同时实现了医疗影像分割的SOTA性能。该方法在8个公开2D/3D数据集上超越现有模型,参数量仅1.39M时推理速度达326FPS,特别适合超声、CT等移动医疗场景。核心突破包括:
- 仿Transformer模式的ConvUtr模块(参数量降低68%)
- 局部-全局-局部信息交换的LKLGL块(计算复杂度降低至O(N²/p⁴))
- 下采样跳跃连接的级联解码器
2. 研究背景
医疗影像的独特挑战:
- 信息密度低:相比自然图像,超声/CT等影像局部特征稀疏
- 噪声干扰强:病灶边界模糊,存在成像伪影
- 移动端需求:实时诊断要求模型在Jetson Nano等设备上高效运行
现有方法局限:
- 轻量CNN(如MobileNetV2)感受野不足
- 传统ViT计算开销大(UNETR需92.61M参数)
- 自然图像轻量模型(如MobileViT)医疗场景性能下降36%
3. 模型方法原理
3.1 整体架构
采用五阶段编码器-解码器结构:
- 前3阶段:ConvUtr块(CNN结构)
- 第4阶段:LKLGL块
- 解码器:上采样块+下采样跳跃连接
3.2 核心组件
ConvUtr模块:一个轻量级的,受Transformer启发的CNN主干,有效地将医学图像从稀疏的像素空间压缩成紧凑的潜在表示;
相比标准卷积复杂度从O(h×w×d²×k²)降至O(h×w×d×(k²+2d))
LKLGL块:
- 大核DSConv局部聚合(红)
- 池化token压缩(计算量↓p²倍)
- 注意力全局交互(蓝)
- 转置卷积局部传播(绿)
解码器创新:
- 横向连接采用最大池化(比卷积下采样Jaccard↑1.88%)
- 级联上采样保留细节(表6实验显示跳过连接提升23%性能)
4. 实验对比结果
4.1 2D多模态测试
模型 | 参数量 | BUS(IoU) | ISIC(IoU) |
---|---|---|---|
nnUNet | 26.1M | 87.51 | 83.31 |
MobileViT-s | 10.7M | 82.57 | 80.12 |
Ours | 1.39M | 87.28 | 83.23 |
在超声(BUS)、皮肤镜(ISIC)等数据集平均IoU达81.67%,超越轻量医学模型UNeXt 4.14%
4.2 3D体积分割
模型 | Dice↑ | HD95↓(mm) | 参数量 |
---|---|---|---|
SegMamba | 74.03 | 13.95 | 65.18M |
Ours-3D | 74.68 | 9.98 | 11.06M |
在BTCV多器官分割中,胆囊分割Dice达69.35%(比SOTA↑7.8%)
4.3 零样本泛化
跨设备/中心测试:
- BUSI→BUS迁移IoU 78.19%(比ERDUnet↑6.44%)
- 甲状腺结节分割TUCC数据集F1达71.44%
5. 总结与展望
创新价值:
- 首次实现医疗ViT的移动端部署(Jetson Nano实测51FPS)
- 提出信息密度自适应的大核设计范式
- 开源模型支持超声/CT/皮肤镜等多模态
未来方向:
- 扩展至实时视频分割
- 结合LLM实现语义辅助分割
- 探索Mamba架构的混合设计
代码已开源:https://github.com/FengheTan9/Mobile-U-ViT
好了,这篇文章就介绍到这里,喜欢的小伙伴感谢给点个赞和关注,更多精彩内容持续更新~~
关于本篇文章大家有任何建议或意见,欢迎在评论区留言交流!