CNN中千奇百怪的卷积方式大汇总

Dilation卷积，通常译作空洞卷积或者卷积核膨胀操作，它是解决pixel-wise输出模型的一种常用的卷积方式。一种普遍的认识是，pooling下采样操作导致的信息丢失是不可逆的，通常的分类识别模型，只需要预测每一类的概率，所以我们不需要考虑pooling会导致损失图像细节信息的问题，但是做像素级的预测时（譬如语义分割），就要考虑到这个问题了。

所以就要有一种卷积代替pooling的作用（成倍的增加感受野），而空洞卷积就是为了做这个的。通过卷积核插“0”的方式，它可以比普通的卷积获得更大的感受野，这个idea的motivation就介绍到这里。具体实现方法和原理可以参考如下链接：

如何理解空洞卷积（dilated convolution）？

膨胀卷积--Multi-scale context aggregation by dilated convolutions

我在博客里面又做了一个空洞卷积小demo方便大家理解

【Tensorflow】tf.nn.atrous_conv2d如何实现空洞卷积？ - CSDN博客

代表模型：

FCN（[1411.4038] Fully Convolutional Networks for Semantic Segmentation）：Fully convolutional networks，顾名思义，整个网络就只有卷积组成，在语义分割的任务中，因为卷积输出的feature map是有spatial信息的，所以最后的全连接层全部替换成了卷积层。

Wavenet（WaveNet: A Generative Model for Raw Audio）：用于语音合成。

4.深度可分离卷积

Depthwise Separable Convolution，目前已被CVPR2017收录，这个工作可以说是Inception的延续，它是Inception结构的极限版本。

为了更好的解释，让我们重新回顾一下Inception结构（简化版本）：

上面的简化版本，我们又可以看做，把一整个输入做1*1卷积，然后切成三段，分别3*3卷积后相连，如下图，这两个形式是等价的，即Inception的简化版本又可以用如下形式表达：

OK，现在我们想，如果不是分成三段，而是分成5段或者更多，那模型的表达能力是不是更强呢？于是我们就切更多段，切到不能再切了，正好是Output channels的数量（极限版本）：

于是，就有了深度卷积（depthwise convolution），深度卷积是对输入的每一个channel独立的用对应channel的所有卷积核去卷积，假设卷积核的shape是[filter_height, filter_width, in_channels, channel_multiplier]，那么每个in_channel会输出channel_multiplier那么多个通道，最后的feature map就会有in_channels * channel_multiplier个通道了。反观普通的卷积，输出的feature map一般就只有channel_multiplier那么多个通道。

具体的过程可参见我的demo：

【Tensorflow】tf.nn.depthwise_conv2d如何实现深度卷积? - CSDN博客

既然叫深度可分离卷积，光做depthwise convolution肯定是不够的，原文在深度卷积后面又加了pointwise convolution，这个pointwise convolution就是1*1的卷积，可以看做是对那么多分离的通道做了个融合。

这两个过程合起来，就称为Depthwise Separable Convolution了：

【Tensorflow】tf.nn.separable_conv2d如何实现深度可分卷积? - CSDN博客

代表模型：Xception（Xception: Deep Learning with Depthwise Separable Convolutions）