阅读ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

ECA模块(Efficient Channel Attention)是针对SENet提出的改进,旨在提高通道注意力机制的效率,同时避免维度降低带来的副作用。通过自适应确定核大小并执行1D卷积,ECA模块有效地捕捉跨通道交互,而不需要复杂的参数或降维操作。研究显示,这种机制能够更好地学习通道注意力,且参数更少,模型复杂性更低。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前面学习了SENet为代表的通道注意力机制来提高网络性能,但是该网络模型涉及降维以控制模型复杂性。但是作者实验中显示维度减少对通道注意预测产生了副作用,因为其将通道特征投影到低维空间,然后将其映射回来,使通道与其权重之间的对应关系成为间接的,并且捕获所有通道之间的依赖关系是低效且不必要的。因此作者设计了ECA模块,该模块避免了维度缩减,并以有效的方式捕获跨通道交互。

1.模块结构:首先自适应地确定核大小,然后执行1D卷积,然后执行Sigmoid函数。最后作用到原图上。

 (1)避免降维

文中将SE模块与三种变体比较,表明避免维度降低有助于学习有效的通道注意。给定聚合特征y∈rc在没有降维的情况下,通道注意可以通过ω=σ(Wy)来学习,文中列出两种方法,

 区别在于SE-V ar3考虑了跨信道交互,而SEV ar2不考虑,结果表明,跨渠道互动有利于学习渠道注意。然而,SEVar3需要大量参数,导致模型复杂度高。折中方案是分组,

将通道划分为G组,每个组包括C/G通道,并独立学习每个组中的通道注意,以本地方式捕获跨通道交互。从卷积的角度来看以上分别视为深度可分离卷积、FC层卷积和分组卷积。但是这种分组完全抛弃了不同组之间的依赖关系,效果不好。

(2)核心思想:频带矩阵和计算过程

 

 式(6)中的Wk涉及k×C参数,通常小于式(5)中的参数。此外,式(6)避免了式(5)中不同组之间的完全独立性。计算公式:

更有效的方法是使所有通道共享相同的学习参数

 

这种策略可以通过核大小为k的快速1D卷积来实现

 (3)范围取值:

最简单的映射是线性函数φ(k)=γ∗k−b

非线性

然后,在给定信道维数C的情况下, 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值