一文搞懂 deconvolution、transposed convolution、sub-pixel or fractional convolution

博客：blog.shinelee.me | 博客园 | CSDN

写在前面

开篇先上图，图为deconvolution在像素级语义分割中的一种应用，直观感觉deconvolution是一个upsampling的过程，像是convolution的对称过程。

本文将深入deconvolution的细节，并通过如下方式展开：

先回答什么是deconvolution？为什么会有transposed convolutionon、subpixel or fractional convolution这样的名字？
再介绍各种情形下 transposed convolution是如何进行的，并提供一种统一的计算方法。

什么是deconvolution

首先要明确的是，deconvolution并不是个好名字，因为它存在歧义：

deconvolution最初被定义为“inverse of convolution”或者“inverse filter”或者“解卷积”，是指消除先前滤波作用的方法。比如，我们认为原始图像是清晰的，但是通过透镜观测到的图像却变得模糊，如果假设透镜的作用相当于以某个kernel作用在原始图像上，由此导致图像变得模糊，那么根据模糊的图像估计这个kernel或者根据模糊图像恢复原始清晰图像的过程就叫deconvolution。
后来论文Adaptive Deconvolutional Networks for Mid and High Level Feature Learning和Visualizing and Understanding Convolutional Networks又重新定义了deconvolution，实际上与transposed convolution、sub-pixel or fractional convolution指代相同。transposed convolution是一个更好的名字，sub-pixel or fractional convolution可以看成是transposed convolution的一个特例。对一个常规的卷积层而言，前向传播时是convolution，将input feature map映射为output feature map，反向传播时则是transposed convolution，根据output feature map的梯度计算出input feature map的梯度，梯度图的尺寸与feature map的尺寸相同。

本文谈论的是deconvolution的第2个含义，后面统一使用transposed convolution这个名字。

什么是transposed convolution？A guide to convolution arithmetic for deep learning中有这样一段话：

看完好像仍不是很直观，transposed convolution到底对应的是什么操作？等到文章的后面，这个问题的答案会逐渐清晰起来。

下面先以1个例子来对比convolution过程和transposed convolution过程，采用与A guide to convolution arithmetic for deep learning相同的设置：

2-D transposed convolutions (
square inputs (
square kernel size (
same strides along both axes (
same zero padding along both axes (
square outputs (

若令

可以看到，convolution过程zero padding的数量与超参数

convolution过程

先看convolution过程，连接方式如下图所示，绿色表示输出，蓝色表示输入，每个绿色块具与9个蓝色块连接。

令卷积核

⎛⎝⎜⎜⎜⎜ w 0, 0 0 0 0 w 0, 1 w

则convolution过程可以描述为

transposed convolution过程

再看transposed convolution过程，如何将长度为4的向量

此时，

需要注意的是，transposed convolution的kernel与convolution的kernel可以有关，也可以无关，需要看应用在什么场景，

在特征可视化、训练阶段的反向传播中应用的transposed convolution，并不是作为一个真正的layer存在于网络中，其kernel与convolution共享（但要经过中心对称后再卷积，相当于上面的
在图像分割、生成模型、decoder中使用的transposed convolution，是网络中真实的layer，其kernel经初始化后需要通过学习获得（所以卷积核也就无所谓中心对称不对称了）。
前向传播为convolution/transposed convolution，则反向传播为transposed convolution/convolution。

在上面举的简化的例子中，我们可以通过分析得知transposed convolution该如何进行，但是，对于更一般情况应该怎么做？

transposed convolution的计算

对于一般情况，只需把握一个宗旨：transposed convolution将output size恢复为input size且保持连接方式相同。

对于convolution过程，我们知道其output map与input map的尺寸关系如下：

o = ⌊ i + 2 p - k s ⌋ + 1

若要将

整除的情况

如果

i = s o - s + k - 2 p = [o + (s - 1) (o - 1)] + (k - 2 p - 1)

因为transposed convolution也是卷积，为了符合上面卷积操作尺寸关系的数学形式，可进一步整理成

i = [ o + ( s - 1 ) ( o - 1 ) ] + [ ( k - 1 ) + ( k - 2 p - 1 ) ] - k 1 + 1

令

- VALID：
- SAME：
- FULL：
可见，convolution和transposed convolution的padding也具有某种对称性

不整除的情况

接下来再看

o' = i ' + 2 p ' - k ' s ' + 1 = i - a

为了让

o' = i ' + 2 p ' + a - k ' s ' + 1

只需在padding后，在下边和右边再扩展

至此，再看transposed convolution的各种情况，就很容易推算了，更多例子可参见A guide to convolution arithmetic for deep learning。

总结

最后，总结一下，

convolution和transposed convolution互为对称过程，存在一个convolution，就存在一个与之对应的transposed convolution，反之亦然；
convolution是将input size的map映射为output size的map，transposed convolution是将output size的map映射为input size的map——旨在将尺寸恢复；
两者均使用卷积操作，为了方便，两者使用同样的stride、padding、kernel size超参数，但实际执行时的操作不同，一般情况下，transposed convolution与convolution实际超参数关系为：
之所以做这样的操作，是为了保证map间的连接方式相同（权重不一定相同），权重的设置需根据应用的场景，可能通过学习得到，也可能与convolution共享（但需要中心对称后再使用）。

参考

posted on 2019-09-20 21:47 曹明阅读(623) 评论(0) 收藏举报

一文搞懂 deconvolution、transposed convolution、sub-­pixel or fractional convolution

一文搞懂 deconvolution、transposed convolution、sub-­pixel or fractional convolution

写在前面

什么是deconvolution

convolution过程

transposed convolution过程

transposed convolution的计算

整除的情况

不整除的情况

总结

参考

一文搞懂 deconvolution、transposed convolution、sub-pixel or fractional convolution

一文搞懂 deconvolution、transposed convolution、sub-pixel or fractional convolution