MobileNet V1 深度可分离卷积（depthwise & pointwise convolution）

论文地址：

MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applicationsarxiv.org

MobileNet的核心就是Depthwise separable convolution（深度可分离卷积），它将一般的卷积过程分为了depthwise convolution（逐深度卷积）和pointwise convolution（逐点卷积），在损失一点精度的情况下，计算量大幅下降，速度更快，模型更小。

先来看看一般的卷积过程，如下图：

输入 $12\times 12\times 3$ 的图像，即 $size=12\times 12,channel=3$ ，使用 $5\times 5\times 3$ 的卷积核， $stride=1$ ，无 $padding$ ，则卷积后，输出 $8\times 8 \times 1$ 的图像。

为了得到下图 $channel=256$ 的输出：

那么就需要256个卷积核（一个卷积核输出一个channel），因此总的计算量就为 $8\times 8 \times 5 \times 5 \times 3 \times 256 = 1,228,800$ ,即一个卷积核要在输入图像上滑动 $8\times 8$ 个位置，每个位置进行 $5\times 5 \times 3$ 次运算，一共有 $256$ 个卷积核。

如果用 $D_K \times D_K$ 表示卷积核的尺寸， $D_F \times D_F$ 表示输入feature map的尺寸， $M$ 表示输入channel数， $N$ 表示输出channel数，那么在 $stride=1$ 且有 $padding$ 的情况下，总的计算量为：

$D_K · D_K · M · N · D_F · D_F$

Depthwise separable convolution的第一步是depthwise convolution，如下图：

将原来的 $5 \times 5 \times 3$ 的卷积核变为了3个 $5 \times 5 \times 1$ 的卷积核， $1 \times 1$ 卷积核常被用来减少channel数。每个卷积核只在输入图像的一个channel上操作，最后得到一个 $8 \times 8 \times 3$ 的输出。