前面学习了SENet为代表的通道注意力机制来提高网络性能,但是该网络模型涉及降维以控制模型复杂性。但是作者实验中显示维度减少对通道注意预测产生了副作用,因为其将通道特征投影到低维空间,然后将其映射回来,使通道与其权重之间的对应关系成为间接的,并且捕获所有通道之间的依赖关系是低效且不必要的。因此作者设计了ECA模块,该模块避免了维度缩减,并以有效的方式捕获跨通道交互。
1.模块结构:首先自适应地确定核大小,然后执行1D卷积,然后执行Sigmoid函数。最后作用到原图上。
(1)避免降维
文中将SE模块与三种变体比较,表明避免维度降低有助于学习有效的通道注意。给定聚合特征y∈rc在没有降维的情况下,通道注意可以通过ω=σ(Wy)来学习,文中列出两种方法,
区别在于SE-V ar3考虑了跨信道交互,而SEV ar2不考虑,结果表明,跨渠道互动有利于学习渠道注意。然而,SEVar3需要大量参数,导致模型复杂度高。折中方案是分组,
将通道划分为G组,每个组包括C/G通道,并独立学习每个组中的通道注意,以本地方式捕获跨通道交互。从卷积的角度来看以上分别视为深度可分离卷积、FC层卷积和分组卷积。但是这种分组完全抛弃了不同组之间的依赖关系,效果不好。
(2)核心思想:频带矩阵和计算过程
式(6)中的Wk涉及k×C参数,通常小于式(5)中的参数。此外,式(6)避免了式(5)中不同组之间的完全独立性。计算公式:
更有效的方法是使所有通道共享相同的学习参数
这种策略可以通过核大小为k的快速1D卷积来实现
(3)范围取值:
最简单的映射是线性函数φ(k)=γ∗k−b
非线性
然后,在给定信道维数C的情况下,