转置卷积的填充和步长

最近学习深度学习的过程中,发现网上对于转置卷积的参数理解的文章较少,因此记录下个人的理解,仅供参考,欢迎指出错误,感谢。


卷积层和池化层,通常会减少下采样输入图像的空间维度,增加通道信息。在以像素级分类的语义分割中有使用转置卷积使得输入和输出的图像的空间维度相同,例如FCN(全卷积神经网络),它将全连接层替换成一个转置卷积层,将分类的预测概率保存在通道中。


一个例子介绍转置卷积直观计算效果

如图,输入是一个2 * 2的矩阵XXX,kernel size 是2 *2,padding是0,stride是1,输出一个3 * 3的矩阵Y。
具体计算:Xi,jX_{i,j}Xi,jKKK做乘法,累加到Y[i:i+kernel size,j:j+kernel size]Y[i:i+kernel\ size,j:j+kernel\ size]Y[i:i+kernel size,j:j+kernel size]


转置卷积的定义以及计算过程

  • 对于卷积Y=X∗WY=X*WY=XW
    • 可以对WWW构造一个V,使得卷积等价于计算矩阵乘法Y1=VX1Y^{1}=VX^{1}Y1=VX1
    • 这里的Y1Y^{1}Y1X1X^{1}X1YYYXXX对应的向量展开。
  • 转置卷积则等价于Y1=VTX1Y^{1}=V^{T}X^{1}Y1=VTX1
  • 如果卷积将输入从(h,w)(h,w)(h,w)变成(h1,w1)(h^{1},w^{1})(h1,w1),则同样的超参数的转置矩阵则从(h1,w1)(h^{1},w^{1})(h1,w1)变成(h,w)(h,w)(h,w)

具体说明
对于一个size为2 * 2 的输入矩阵X,和一个大小为2 * 2 的卷积核

X=[x11x12x21x22]X = \begin{bmatrix} x_{11}&x_{12} \\ x_{21} &x_{22} \\ \end{bmatrix}X=[x11x21x12x22]

[公式]

计算输出YYY的具体实现方法为矩阵乘法。
将卷积核表示为稀疏矩阵vvv
C=[w11w120w21w2200000w11w120w21w22000000w11w120w21w2200000w11w120w21w22]C = \begin{bmatrix} w_{11} &w_{12} &0 &w_{21} &w_{22} &0 & 0 &0 &0\\ 0 &w_{11} & w_{12} &0 & w_{21} & w_{22} &0 &0 &0\\ 0 &0 &0 &w_{11} &w_{12} &0 & w_{21} &w_{22} & 0 \\ 0 &0 &0 &0 & w_{11} &w_{12} &0 &w_{21} & w_{22} \\ \end{bmatrix}C=w11000w12w11000w1200w210w110w22w21w12w110w220w1200w21000w22w21000w22

  • 每一行向量表示在一个位置的卷积操作,0填充表示卷积核未覆盖到的区域。

将输入XXX 展开为列向量:
X=[x11x12x21x22]TX = \begin{bmatrix} x_{11} & x_{12} & x_{21} & x_{22} \end{bmatrix}^TX=[x11x12x21x22]T
则卷积操作可以表示为:
Y=VXY= VXY=VX
转置卷积则可以表示为:
Y1=VTX1Y^{1}=V^{T}X^{1}Y1=VTX1


转置卷积的填充和步长

转置卷积也是一种卷积,它将输入和核进行了重新排序,同卷积不同的是它通常作用上采样。

1 当填充为0步长为1时

  • 将输入填充 k−1k-1k1
  • 将核矩阵上下,左右翻转。
  • 之后正常做填充为0,步幅为1的卷积。

2 当填充为 ppp 步幅为1时

  • 将输入填充 k−p−1k-p-1kp1
  • 将核矩阵上下,左右翻转。
  • 之后正常做填充为0,步幅为1的卷积。

3 当填充为 ppp 步幅为sss

  • 在行和列之间插入s−1s-1s1行或列。
  • 将输入填充 k−p−1k-p-1kp1
  • 将核矩阵上下,左右翻转。
  • 之后正常做填充为0,步幅为1的卷积。

卷积和转置卷积作用后的矩阵尺寸变化

  • 当输入的矩阵高宽为n,核大小为k,padding为p,stride为s。
  • 转置卷积作用后的尺寸变化:n1=sn+k−2p−sn^{1} = sn+k-2p-sn1=sn+k2ps。如果想让高宽成倍增加,那么k=2p+sk=2p+sk=2p+s
  • 卷积作用后的尺寸变化:n1=⌊n−k+2p+ss⌋n^{1} =\lfloor \frac{n-k+2p+s}{s} \rfloorn1=snk+2p+s。如果想让高宽成倍减少,那么k=2p+1k=2p+1k=2p+1
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值