卷积神经网络感受野计算详解

最新推荐文章于 2025-09-05 14:24:44 发布

原创最新推荐文章于 2025-09-05 14:24:44 发布 · 908 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#cnn #人工智能 #神经网络 #卷积神经网络 #感受野 #深度学习 #程序那些事

计算卷积神经网络的感受野

深度神经网络虽在人工智能领域取得突破性成果，但其开发和调试仍存在挑战。本研究从卷积模型角度分析神经网络，重点探讨输入信号对输出特征的影响程度，以及将网络任意位置的特征映射回产生它们的输入区域。卷积网络感受野是关联输出特征与输入区域的关键参数，定义为生成该特征的输入区域大小。

主要贡献

数学推导与高效算法：提出现代卷积神经网络感受野计算的数学推导和高效算法。早期研究仅针对单路径卷积网络提供递归方程，本文重新推导得出单路径情况下的闭式表达式，并首次将感受野计算扩展到多路径现代卷积架构。
开源工具库：推出开源库自动执行感受野计算，集成于TensorFlow代码库，可轻松分析多种模型。

问题设置

考虑具有L层的全卷积网络（FCN），定义特征图 $fl∈Rhl×wl×dlf_l \in \mathbb{R}^{h_l \times w_l \times d_l}$ 表示第l层输出，其中高度 $h_l$ 、宽度 $w_l$ 和深度 $d_l$ 。输入图像记为 $f_0$ ，最终输出特征图为 $f_L$ 。

每层l的空间配置由4个参数定义：

$k_l$ ：核大小（正整数）
$s_l$ ：步幅（正整数）
$p_l$ ：应用于输入特征图左侧的填充（非负整数）
$q_l$ ：应用于输入特征图右侧的填充（非负整数）

单路径网络计算

感受野大小计算

定义 $r_l$ 为最终输出特征图 $f_L$ 相对于特征图 $f_l$ 的感受野大小。递归方程为：
$rl−1=sl⋅rl+(kl−sl)r_{l-1} = s_l \cdot r_l + (k_l - s_l)$
闭式解为：
$r0=∑l=1L((kl−1)∏i=1l−1si)+1r_0 = \sum_{l=1}^{L} \left( (k_l - 1) \prod_{i=1}^{l-1} s_i \right) + 1$

输入图像感受野区域计算

定义 $u_l$ 和 $v_l$ 为用于计算 $f_L$ 中特定特征的区域在 $f_l$ 中的最左和最右坐标（零索引）。递归关系为：
$ul−1=−pl+ul⋅slu_{l-1} = -p_l + u_l \cdot s_l$
$vl−1=−pl+vl⋅sl+kl−1v_{l-1} = -p_l + v_l \cdot s_l + k_l - 1$
闭式解为：
$u0=uL∏i=1Lsi−∑l=1Lpl∏i=1l−1siu_0 = u_L \prod_{i=1}^{L} s_i - \sum_{l=1}^{L} p_l \prod_{i=1}^{l-1} s_i$
$v0=vL∏i=1Lsi−∑l=1L(1+pl−kl)∏i=1l−1siv_0 = v_L \prod_{i=1}^{L} s_i - \sum_{l=1}^{L} (1 + p_l - k_l) \prod_{i=1}^{l-1} s_i$

有效步幅与有效填充

定义有效步幅 $Sl=∏i=l+1LsiS_l = \prod_{i=l+1}^{L} s_i$ 和有效填充 $Pl=∑m=l+1Lpm∏i=l+1m−1siP_l = \sum_{m=l+1}^{L} p_m \prod_{i=l+1}^{m-1} s_i$ ，则可简化为：
$u0=−P0+uL⋅S0u_0 = -P_0 + u_L \cdot S_0$
$v_0 = u_0 + r_0 - 1$

感受野中心 $c_0$ 为：
$c0=−P0+uL⋅S0+r0−12c_0 = -P_0 + u_L \cdot S_0 + \frac{r_0 - 1}{2}$

任意计算图

现代卷积网络（如ResNet、Inception）采用有向无环计算图，每层可能有多个输入路径。需考虑对齐问题：不同路径可能导致输入区域未对齐，感受野大小可能缺乏平移不变性。

对齐条件要求所有路径对任意层l和输出特征 $u_L$ 满足：
$S_l^{(i)} = S_l^{(j)}$
$−Pl(i)+rl(i)−12=−Pl(j)+rl(j)−12-P_l^{(i)} + \frac{r_l^{(i)} - 1}{2} = -P_l^{(j)} + \frac{r_l^{(j)} - 1}{2}$

提出复杂度为 $O (∣ E ∣ + ∣ L ∣)$ 的高效算法，通过反向拓扑排序遍历计算图，跟踪感受野参数并在发现更大感受野路径时更新。

现代网络的感受野分析

使用开源库计算现代卷积网络的感受野参数：

模型	感受野®	有效步幅(S)	有效填充§	发布年份
alexnet_v2	195	32	64	2014
vgg_16	212	32	90	2014
mobilenet_v1	315	32	126	2017
resnet_v1_50	483	32	239	2015
inception_v2	699	32	318	2015
resnet_v1_101	1027	32	511	2015
inception_v3	1311	32	618	2015
resnet_v1_152	1507	32	751	2015
resnet_v1_200	1763	32	879	2015
inception_v4	2071	32	998	2016
inception_resnet_v2	3039	32	1482	2016

随着模型从AlexNet、VGG发展到ResNet和Inception，感受野逐渐增大，最新网络的感受野通常覆盖整个输入图像。ImageNet top-1准确率与感受野大小呈对数关系，表明大感受野对高级识别任务必要但收益递减。MobileNet通过深度可分离卷积以较小计算代价增加感受野， achieving high recognition performance with compact architecture.

需注意，感受野大小不是影响性能的唯一因素，网络深度、宽度、残差连接、批归一化等也起重要作用。输入像素对特征的影响权重不同，中心像素通常更重要，有效感受野呈高斯分布。

其他网络操作

扩张卷积：将核大小k替换为 $α(k−1)+1\alpha(k-1)+1$
上采样：可视为具有特定核大小的局部操作
可分离卷积：感受野特性与等效非可分离卷积相同
批归一化：推理时不改变感受野，训练时感受野为整个输入图像

致谢

感谢早期稿件审阅者、代码库贡献者和模型分析协助者。

通过本文推导和开源代码，期望增强对复杂深度学习模型的理解，推动更高效的机器学习研究。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传