【TPAMI 2025】重磅来袭!全新 MSA 掩码分离注意力,分割模型涨点利器,精度再突破!

Bilibili:CV缝合救星

🌈 小伙伴们看过来~

写推文真的不容易,每一行字、每一张图都倾注了我们的心血💦 如果你觉得这篇内容对你有帮助、有启发,别忘了顺手点个赞、转发一下、或者点个“在看” 支持我们一下哈~✨

你的一点鼓励🌟,对我们来说就是超大的动力!

👀 小声提醒:用电脑打开阅读更舒服哟,排版清晰、体验更棒!谢谢大家~我们会继续努力产出优质内容,陪你一起进步呀✌️❤️

image.png

01 论文信息

论文题目: CamoFormer: Masked Separable Attention for Camouflaged Object Detection (TPAMI 2025 顶刊论文 CCF-A) 中文题目:CamoFormer:用于伪装目标检测的掩码可分离注意力机制即插即用模块:Masked Separable Attention 掩码可分离注意力机制 MSA

02 论文概要

Highlight

image.png

图 1. 我们的 CamoFormer 与当前最新的伪装目标检测方法(如 SegMaR [22] 和 ZoomNet [41])之间的可视化对比。绿色矩形区域内展示了各方法在分割细节上的放大视图。我们可以清晰地观察到,CamoFormer 相较于其他方法能生成更优的结果。建议在彩色模式下查看效果最佳。

03 研究背景

   🌧️ 存在的问题(背景动因)
目标难区分:伪装目标与背景在外观上极度相似,导致传统注意力机制难以准确分离前景与背景区域,容易造成目标漏检或误分割。
全局建模泛化差:常规 Transformer 中所有注意力头作用一致,缺乏功能分工,难以同时兼顾区域内聚焦与区域间对比。
冗余注意力浪费计算:标准自注意力均匀处理所有区域,无法有效聚焦伪装目标关键特征区域,导致效率和性能难以兼得。

    💡 解决思路(MSA 核心贡献)
掩码可分离机制设计:MSA 将注意力头划分为三类:前景专用头(F-TA)背景专用头(B-TA)全局普通头(TA),分别建模不同区域间的关系,突出前背景对比特征。
预测引导掩码建模:通过中间预测结果生成连续概率掩码(而非二值化),引导 F-TA 与 B-TA 注意力在各自区域内进行细粒度建模,避免背景干扰。
结构互补融合:将三类注意力结果通过拼接 + 卷积融合,充分整合不同区域的语义表示,提升分割边界和区域一致性。
分层渐进细化:在解码器中逐层引入 MSA,结合前层预测作为掩码进行逐级 refinement,实现对伪装目标边界的渐进增强与细化建模

04 模块原理解读

📌 模块解析 | Masked Separable Attention 掩码可分离注意力机制

image.png

图 2.MSA模型概览图

    📌 MSA 模块设计聚焦于“前背景分离建模”与“分组注意力协同融合”,其核心由以下三个关键步骤构成:

① 分组注意力机制:将多头注意力划分为三类子模块:前景注意力(F-TA)背景注意力(B-TA)常规全局注意力(TA),通过功能分工,使模型分别捕捉目标内部结构、背景抑制信息及全局依赖,提升对伪装目标的辨别能力。

② 掩码引导计算:在每层特征图上利用前一阶段预测结果生成连续值掩码图,引导 F-TA 和 B-TA 仅在各自关注区域内计算注意力分布,有效避免前后景混淆问题,提升区域对比度与边界清晰度。

③ 多路注意力融合:通过将三类注意力输出进行拼接,并使用 3×3 卷积进行聚合映射,获得统一维度的融合特征,实现前-背景-全局语义互补,增强目标区域建模的完整性与判别性。

    🔍 该模块通过显式引导模型区分前景与背景注意力流,并结合逐层 refinement 策略,尤其适用于伪装目标检测、弱边界目标分割等前后景差异模糊的高难度视觉任务

05 创新思路

CV缝合救星原创模块 视频讲解MSA|DIA

🧠 模块名称:DirectionalInteractionAttention(方向交互注意力模块)

    DIA 模块以捕捉多头方向性语义交互为目标,通过可学习多头建模、方向门控卷积增强及全局-局部特征融合,实现对目标区域上下文依赖的高效建模。该模块可无缝替换标准注意力模块,广泛适用于多尺度特征处理与上下文补全。其核心包含以下关键机制:

可分组多头查询建模(创新点⭐):输入特征先通过 1×1 卷积生成多头查询 Q、键 K、值 V,再由 方向感知门控卷积(DGC)进一步提取水平、垂直、斜向的结构信息,为后续注意力计算提供方向性语义支持。

方向门控增强(创新点⭐):通过三个 depthwise 路径分别提取 H、V、D 三向特征,并结合门控机制自适应激活不同方向响应,有效增强边界与纹理特征建模能力,显著提高目标结构感知能力。

多头注意力交互:采用标准 self-attention 构建每个头的注意力图 Attn_i = Softmax(Q_i · K_i^T),用于捕捉各方向的像素级依赖关系,结合可学习温度参数调节每个头的敏感度。

多头融合与压缩重构(创新点⭐):将所有头输出的注意力结果 V_i * Attn_i 拼接后通过 1×1 卷积映射恢复原通道数,得到融合后的方向交互特征。

全局通道校准(SE-like)(创新点⭐):引入 SE 通道注意力机制,对融合特征进行压缩→激活→扩展→激活,进一步加强关键通道表达,提升对主干结构的响应能力。

残差连接:将模块输出与原始输入进行逐元素相加,提升梯度传播稳定性与网络收敛速度,增强模型的整体适应能力。

    🔍 DIA 模块通过引入方向门控路径与多头注意力协同机制,突破传统注意力在方向信息建模上的局限,显著提升了模型对结构性区域与远程依赖的建模能力,适配性强、计算效率高,是一种优雅且可拓展的视觉注意力增强模块。

📌 输入:特征图 x ∈ [B, C, H, W]
    │
    ▼

【Step 1】Q/K/V 生成 + 门控方向增强
    ├─ Conv1x1 → 分别生成 Q、K、V
    ├─ Q/K/V 各自经过 DirectionalGatedConv(3个方向)
    └─ 输出维度保持不变,增强方向感知能力

【Step 2】多头注意力计算
    ├─ 将 Q/K/V 重排列为 [B, heads, C//H, H×W]
    ├─ 注意力 = Softmax(Q @ K^T) * temperature
    └─ 输出 = 注意力 @ V → reshape 回原空间维度

【Step 3】融合压缩
    └─ 所有头拼接 → Conv1x1 → 输出交互特征 ∈ [B, C, H, W]

【Step 4】通道注意力增强(SE-like)
    ├─ GlobalAvgPool → [B, C, 1, 1]
    ├─ Conv1x1 → ReLU → Conv1x1 → Sigmoid
    └─ 交互特征 × 通道权重

【Step 5】残差连接(可选)
    └─ 输出 += identity(输入特征)

📤 输出:增强后的特征图 ∈ [B, C, H, W]

06 模块适用任务

    🎯 MSA 模块适用任务(前背景分离建模 + 掩码引导注意力):

伪装目标检测(Camouflaged Object Detection):MSA 模块专为前后景界限模糊场景设计,通过掩码引导分离注意力有效增强模型对前景结构的感知能力,适用于自然伪装目标、医学阴影目标等难识别区域检测。

语义与实例分割(Semantic & Instance Segmentation):前背景可分离建模机制提升了对边界区域的刻画能力,有助于处理组织重叠、边界粘连等挑战性分割任务,尤其适用于医学图像分割、遥感建筑提取等高精度需求场景。

弱监督学习与少样本识别(Weakly-supervised / Few-shot Tasks):掩码机制可结合伪标签或显著性图指导注意力学习,在标注不完全或样本稀缺的条件下提高模型聚焦关键区域的能力。

小目标检测(Small Object Detection):模块具备精细区域建模与局部特征强化能力,能有效增强小目标区域特征表达,适用于交通标志识别、工业缺陷检测等任务。

动态背景下识别任务(Dynamic Scene Recognition):MSA 能有效抑制干扰区域的特征传播,增强前景对比,适用于复杂场景中的目标稳定识别,如视频跟踪、复杂交通场景感知等。

    🎯 DIA 模块适用任务(方向门控卷积 + 多头交互注意力):

图像分类与结构识别(Image Classification & Structural Recognition):DIA 的方向感知能力适用于识别包含明显结构特征的图像,如场景分类、纹理识别、建筑风格分析等任务。

边界感知分割(Boundary-aware Segmentation):模块能够捕捉边缘方向和区域依赖,有效解决边界模糊、组织过渡区域识别问题,适用于肿瘤轮廓提取、器官边界分割等高精度医学图像任务。

姿态估计与关键点检测(Pose Estimation & Keypoint Detection):多方向注意力机制强化了模型对长距离点之间的结构推理能力,可用于人体姿态估计、动物骨架标注等需要结构建模的任务。

跨尺度特征建模(Cross-scale Feature Learning):DIA 可无缝接入 FPN、Unet 等架构中,在不同分辨率下构建稳定的方向一致性,有助于保持语义连贯性,提升特征对齐效果。

高分辨率图像建模(High-resolution Vision Tasks):在遥感、卫星、文档识别等高分图像中,DIA 的多头交互结构能在大空间范围内保持结构一致性,提高建模效率和精度。

07 运行结果与即插即用代码

运行结果

MSA模块

image.png

DIA模块

image.png

本文代码获取

立即加星标

每天看好文

image.png

image.png

扫码关注

福高照 祭灶神

扫尘土 贴窗花

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值