如何在手机上跑深度神经网络

这天，老板跟你说，希望能在手机上跑深度神经网络，并且准确率要和 VGG、GoogleNet 差不多。

接到这个任务后你有点懵逼，这些网络别说计算量大，就连网络参数也要 100MB 的空间才存得下，放在手机上跑？开玩笑呗。

老板又说，怎么实现是你的事，我要的只是这个功能。

你默默地点了点头。

初步尝试：MobileNet v1

问题出在哪

要在手机上跑深度网络，需要在模型参数和计算量上进行优化。

那深度神经网络的计算量和参数量主要体现在哪呢？这里以 VGG16 为例：

第一层卷积： [224 x 224 x 3] --> [224 x 224 x 64]，卷积核大小为 3 x 3（简单起见，这里计算量的计算忽略激活函数）

计算量为： $3 \times 3 \times 3 \times 224 \times 224 \times 64 \approx 8.7 \times 10^7$

参数量为： $3 \times 3 \times 3 \times 64 = 1728$

第二层卷积：[112 x 112 x 64] --> [112 x 112 x 128]，卷积核大小为 3 x 3。

计算量为： $3 \times 3 \times 64 \times 112 \times 112 \times 128 \approx 9.2 \times 10^8$

参数量为： $3 \times 3 \times 64 \times 128 = 73728$

......

第一层全连接层：[14 x 14 x 512] --> [4096]。

计算量为： $14 \times 14 \times 512 \times 4096 \approx 4.1 \times 10^8$

参数量为： $4096 \times 1000 = 4096000$

......

两相对比，同时考虑到网络中卷积层比全连层多，就不难发现深度卷积网络中的计算量主要由卷积层承包，而参数则集中在全链接层。因此，要想对模型做优化，可以在卷积层的计算上做点手脚，同时减小全连接层的维度。

Separable Convolution

虽然找到了问题所在，但具体要如何优化卷积层的计算量呢？幸运的是，你在搜索的过程中发现已经有人针对这个问题给出了解决方案：Separable Convolution。这是一种对卷积运算进行分解的方法。

以下例子摘自文末链接：卷积神经网络中的Separable Convolution

假设现在需要做这样一个卷积操作：[64 x 64 x 3] --> [64 x 64 x 4]，那么通常的操作是这样的（假设卷积核大小为 3 x 3）：

这种做法的计算量为： $3 \times 3 \times 3 \times 64 \times 64 \times 4 = 442368$ ，

参数量为： $3 \times 3 \times 3 \times 4 = 108$ 。

而 Separable Convolution 会将该操作分解为两步：Depthwise Convolution 和 Pointwise Convolution。

Depthwise Convolution 的过程其实非常简单，顾名思义，Depthwise 就是每个通道单独做一遍卷积：

这种做法的效果是：[64 x 64 x 3] --> [64 x 64 x 3]，由于是 Depthwise 的，所以只需要三个 [3 x 3 x 1] 的 filter 即可。

因此计算量为： $3 \times 3 \times 64 \times 64 \times 3=110592$ ，

参数量为： $3 \times 3 \times 3 = 27$ 。

不过 Depthwise 将不同通道之间的联系断开了，而且输出的通道数与输入是一样的。为了得到 [64 x 64 x 4] 的输出，还需要经过 Pointwise Convolution。

Pointwise Convolution 的过程在 Depthwise 之后进行，它是用一个 [1 x 1] 的卷积核把 [64 x 64 x 3] 的 feature map 转换为 [64 x 64 x 4]：

计算量为： $1 \times 1 \times 64 \times 64 \times 3 \times 4=49152$ ，

参数量为： $1 \times 1 \times 3 \times 4 = 12$ 。

我们发现，通过 Separable Convolution 这种分解的方法也可以拼凑出一个 [64 x 64 x 4] 的 feature map，

而这种方法的计算量为： $110592 + 49152=159744$ ，而总的参数量为： $27 + 12 = 39$ 。

对比原先的 442368 (计算量) 和 108 (参数量)，简直实惠了好多。

于是，你通过这种套路构造出了一个适合手机端运行的深度网络，并简化了全连接层的参数：

图中的 Conv dw 指的就是 Depthwise Convolution。由于是为手机设计的网络，因此你取了个形象的名字：Mobilenet。

不过，这个网络的精度会不会下降呢？你赶紧在 ImageNet 数据集上做了实验：

这个结果实在是太感人了，精度几乎和 GoogleNet 相当，但计算量却只有后者的三分之一，参数量也减少了三分之一（当然也可能是图像分类这个问题相对简单）。

为了方便对模型大小的进一步调整，你提供了两个额外的参数： $\alpha$ 、 $\rho$ 。 $\alpha$ 又称为 Width Multiplier，主要用来控制 feature map 的 channel 数目，因为在某些任务中，很多 feature map 的 channel 可能包含很少的信息，因此少一些，而有些情况可能需要更多的 channel。 $\alpha=1$ 时就是上文中提出的基准网络。 $\rho$ 则是图像的分辨率，由它控制输入图片的大小。

进阶：ShuffleNet v1

Separable Convolution 其实就是 MobileNet v1 的精华了，个人认为，MobileNet v1 能取得成功主要还是那些大网络在处理简单任务时存在大量的冗余，所以 MobileNet v1 用更少的参数量拼凑出同样大小的 feature map 时，性能并没有明显下降。

而 ShuffleNet v1 则是在此基础上进一步压榨卷积操作，它的重点放在了 Pointwise Convolution 上。Pointwise Convolution 的作用是把 feature map 的所有 channel 信息联系起来，但这种联系可能本身就存在冗余。举个例子，一个 [64 x 64 x 4] 的 feature map，通过 [1 x 1 x 4] 的卷积核后，可以得到 [64 x 64 x 1] 的输出，这个 [1 x 1 x 4] 的卷积核其实就是把原来 feature map 上每个位置的所有 channel 信息（一个 [1 x 1 x 4] 的通道向量）进行加权求和，得到下一层 feature map 上的一个点。不过，真的有必要融和整个通道向量的信息吗？如果只对两个通道的信息进行相加，得到的结果会比四个通道差吗？为了探究这个问题，炼丹师们把原来的 Pointwise Convolution 改造成了 Group Convolution，这个 Group Convolution 其实也不是什么新鲜玩意，当年 AlexNet 刚出来的时候，由于显存不足，就曾将卷积操作分为两组，用两张显卡来装 feature map，这种做法导致更少的参数量和计算量，而且在某些任务中并不会对性能产生很大影响。ShuffleNet v1 的炼丹师显然发现了这一点。

Group Convolution 的操作非常简单，还是举之前的例子：一个 [64 x 64 x 4] 的 feature map，要想进一步得到 [64 x 64 x 2] 的 feature map，直接用 Pointwise Convolution 处理的话，需要一个 [1 x 1 x 4 x 2] 的卷积张量。但用上 Group Convolution 后，我们可以这样操作，用一个 [1 x 1 x 2 x 1] 的卷积张量对原来 feature map 四层通道中的前面两层进行卷积操作，得到一个 [64 x 64 x 1] 的 feature map，之后，用另一个 [1 x 1 x 2 x 1] 的卷积张量继续对后面两层进行卷积操作，同样得到一个 [64 x 64 x 1] 的 feature map，这两块 feature map 拼在一起，最终得到一个 [64 x 64 x 2] 的 feature map。

仔细数数，原来 Pointwise Convolution 的计算量为： $1 \times 1 \times 64 \times 64 \times 4 \times 2=32768$ ，参数量为： $1 \times 1 \times 4 \times 2=8$ ，而现在拆成 Group Convolution 后，计算量为： $1 \times 1 \times 64 \times 64 \times 2 \times 2=16384$ ，参数量为： $1 \times 1 \times 2 \times 2=4$ ，计算量和参数量都减少了一半。

鸡贼的读者可能还发现，如果把 Group Convolution 做到极致，每个 Group 只有一个 channel 的话，就变成 Depthwise + Pointwise Convolution 了，哈哈，原来又是拼凑游戏，笑出声。

不过，仅仅用 Group Convolution，说性能不会影响很多人是不信的，毕竟本身就是 Pointwise Convolution，相邻点之间的信息已经忽略了，要是通道上的信息也忽略太多，难免会存在问题。所以，ShuffleNet v1 的 Shuffle 该登场了。炼丹师为了增强 Group Convolution 的鲁棒性，在对通道进行相加时，故意打乱了通道顺序。这样一来，在上面的例子中，本来是 1、2 通道结合得到一个新的点，就变成了 1、3 通道结合，2、4 通道结合了。

这也就是这篇论文的精华所在：

当然啦，估计是考虑到 Group Convolution 本身损失的信息有点严重，论文又特意加了 ResNet 中的短路连接，算是弥补了一点信息：

下图给出的是论文中关于 Shuffle 操作的实验：

Cls err 是 ImageNet 数据集上的错误分类率，数值越小证明结果越好，g 则表示 group 的数量。实验结果给出这样一个信息：当 group 的数量越多时，shuffle 的作用也越明显。这一点也很好理解，因为 group 越多，丢失的信息也越多，这时如果能把 channel 打散，那么不同组之间的 channel 信息就有了交流的通道，能在一定程度上增加鲁棒性。

总结

总的来说，MobileNet v1 作为第一个进行手机端优化的工作，其亮点主要是 Depthwise Convolution 和 Pointwise Convolution。ShuffleNet v1 则是在 MobileNet v1 的基础上加入了 Group Convolution，并通过 Shuffle 的方法提高鲁棒性，同时加入短路连接保持网络的表达能力。