论文地址:https://arxiv.org/pdf/2507.12006v1
核心问题
Vision Transformers (ViTs) 在密集预测任务(如语义分割、目标检测)中存在频率消失(frequency vanishing)问题:
- 注意力机制本质是低通滤波器,会抑制高频信号(纹理、细节);
- 堆叠层架构加剧高频信息丢失,导致特征表示模糊(如图1b所示)。
解决方案:FDAM(频率动态注意力调制)
提出一种轻量级模块,包含两项核心技术:
1. 注意力反转(AttInv)
- 动机:基于电路理论,将低通滤波器(注意力矩阵)反转为高通滤波器(图3-i)。
- 方法:
- 计算注意力矩阵的频域响应 F(A);
- 生成互补高通滤波器:A