MobilNnet

一、参数数量和理论计算量

1、定义

参数数量（params）：关系到模型大小，单位通常为M，通常参数用 float32 表示，也就是每个参数占4个字节，所以模型大小是参数数量的 4 倍
理论计算量（FLOPs）：
- 是 floating point operations 的缩写（注意 s 小写），可以用来衡量算法/模型的复杂度，这关系到算法速度，大模型的单位通常为 G，小模型单位通常为 M
- 通常只考虑乘加操作(Multi-Adds)的数量，而且只考虑 CONV 和 FC 等参数层的计算量，忽略 BN 和PReLU 等等。一般情况，CONV 和 FC 层也会忽略仅纯加操作 的计算量，如 bias 偏置加和 shotcut 残差加等，目前技术有 BN 的 CNN 可以不加 bias

2、计算公式

联想矩阵运算公式。

假设卷积核大小为 K_h× K_w，输入通道数为 C_in x C_out，输出特征图的宽 W 和高 H，忽略偏置。

CONV 标准卷积层：
- 参数量就是kernel*kernel*channel_input*channel_output，卷积核的大小x通道数量x卷积核的个数
- ，输入通道数等于一个卷积核的通道数，输出通道数=卷积核的个数；
- 计算量：kernel*kernel*next_featuremap_height*next_featuremap_wight*channel_input*channel_output
- 就是卷积核尺寸 x 输出特征图尺寸 x 卷积核通道数（输入通道数）x 输出通道数（卷积核个数）

参数量等于计算量，因为输入输出都不能使二维平面，而是向量
，C相当于一个一张图片展成一条线上的所有点，也就是所有的像素点

参数量取决于显存大小，计算量要求芯片的floaps（gpu的运算能力）

二、MobileNetV1: Efficient Convolutional Neural Networks for Mobile Vision Applications

1、能够减少参数数量和计算量的原理

标准卷积

输入层维度：D_{input_h} * D_{input_w} * M（输入的长和宽 x 输入的通道数M）

转化为输出层维度：DG * DG * N

其中假设卷积核Dk * Dk，那么参数量：D_k * D_k * M * N，计算量：D_k * D_k * M * D_G * D_G * N

标准卷积不管当前pixel有多少channels，卷积之后就是一个channel：

深度可分离卷积

将一个标准卷积核分成一个深度卷积depthwise convolution 和一个 1x1 的卷积（点卷积）。

第一步深度卷积操作是在每个channel上做的卷及操作：

参数量：D_k * D_k * 1 * M（每个卷积核通道数是1，卷积核的个数=输入图像的通道数，输入输入通道数没有变）

计算量：D_k * D_k * M * D_G * D_G

第二部点卷积（标准卷积，卷积核1x1），将每个通道结合起来：

参数量：1 * 1 * M * N

计算量：1 * 1 * D_G * D_G * M * N

最后和标准卷积的计算量相比：

mobileNet使用的是3x3的卷积核，所以计算量可以减少8~9倍。

depthwise精确度

并不是单纯的将标准卷积换成两种卷积的叠加，没有强行损失精度为代价来提升速度。

dw卷积不是标准卷积中的单核单通道卷积，每个通道都是不一样的卷积，而且dw卷积并没有让通道之间产生的数据进行信息交流；

pw卷积才是将dw卷积之后的feature map通道之间进行信息间的交互，同时pw卷积将特征嵌入到低维子空间，用更低通道的feature map来存储信息；

使用残差网络结构扩张->dw卷积->降维的结构，扩张的目的就是为了提升模型的效果。

2、神经网络结构

mobileNet网络结构图。

28层，深度卷积和点卷积分开来算。

不分开算（dw和pw为一个卷积层）：14层卷积层（从0开始）+ pool + fc +（或再接一个softmax层）

之前标准的结构式卷积层后跟上BN层和Relu激活函数，使用Depthwise Separable convolution之后，每一层都跟上了BN层和relu激活函数：

其中，原来的标准卷积修改为：

3、引入参数

（1）宽度乘数（width multiplier）

超参数α，目的是使模型变瘦：所有层的通道数都乘α，输入层M通道，变成αM；输出层N通道，变成αN。

所以引入宽度乘数后总的计算量：D_k * D_k * αM * D_G * D_G + * D_G * D_G * αM * αN

一般α∈(0,1]，常取的值是1,0.75,0.5,0.25。

大约可以减少参数量和计算量的α²

（2）分辨率乘数（resolution multiplier）

超参数ρ，目的是降低图片的分辨率：所有层的分辨率乘ρ（四舍五入），feature map长宽都乘ρ，ρD_G * ρD_G。

模型大小不变，计算量下降到原来的 ρ²，ρ∈(0,1]。

（3）参数的选择

关于超参数的选择，下图可以看出准确度和参数量和参数运算量的关系，之间有个trade off，合理选择参数即可。

三、MobileNetV2：Inverted Residuals and Linear Bottlenecks

1、主要改进点

引入残差结构（shortcut）；
inverted residual block，在进行深度卷积之前，先进行1x1卷积增加feature map的通道数。（一般是两头多，中间少（沙漏形态），而inverted residual block是两头少，中间多（梭子形态））。增强梯度的传播，显著减少推理期间所需的内存占用；
点卷积后使用linear激活函数，来防止relu对特征的破坏，保留特征多样性，增强网络的表达能力，使得模型在低精度计算下具有更强的鲁棒性；
网络为全卷积的，使得模型可以适应不同尺寸的图像；

2、先1x1卷积扩充通道数

和mobileNet_v1比，计算量增加了，但相当于标准卷积来说，计算量还是相当少的。

v2在dw卷积之前新加了一个pw卷积，这么做的原因是因为dw卷积本身不能改变通道数，上一层给他多少通道，他就只能输出多少通道，所以如果上一层通道数很少的话，dw也只能委屈的在低维空间提取特征，因此效果不够好。所以v2为了改变这个问题，给每个dw之前都配了一个pw，专门用来提升维度，定义维度系数6，这样不断输入维度多少，经过这个pw升维之后，dw都是在相对的更高维进行工作。

3、线性激活函数

恒等函数（Identity）或线性激活（Linear activation）函数是最简单的激活函数。输出和输入成比例。线性激活函数的问题在于，它的导数是常数，梯度也是常数，梯度下降无法工作。

V2去掉了dw之后的pw的激活函数，改为linear，称为linear bottleneck，这么做是因为，激活函数在高维空间能够有效地增加非线性，增强特征的表达能力，但是在低维空间的话，就会破坏特征，不如线性的效果好。

由于第二个pw主要功能就是降维，所以按照上面的理论，降维之后，就不宜再用relu6了。

4、inverted residual block

V2借鉴了resnet，都采用 1x1 -> 3x3 -> 1x1 的模式，同样适用shortcut将输出与输入相加。

但是不同点是：

resnet适用标准卷积来提取特征，v2适用dw卷积。
resnet先降维(0.25倍)->卷积->升维，而v2是先升维(6倍)->卷积->降维。所以直观上看resnet是沙漏形态，v2是梭子形态。这种结构成为inverted residual block，这么做是为了配合dw卷积而做的适配，希望提取特征能够在高维进行。

4、relu6

relu6一般在低精度运算中使用，在移动端设备中很受欢迎。和relu相比，relu6的输出被限制在了一个固定区间内。

补充

MobileNetV2 building block 如下所示，若需要下采样，可在 DWise 时采用步长为 2 的卷积；

小网络使用小的扩张系数（expansion factor），大网络使用大一点的扩张系数（expansion factor），推荐是5~10，论文中 t=6

posted @ 2019-06-21 20:24 Austin_anheqiao 阅读(344) 评论(0) 编辑收藏举报

刷新页面返回顶部

keep going!~

苦尽甘来定不负生而善之

MobilNnet

一、参数数量和理论计算量

1、定义

2、计算公式

二、MobileNetV1: Efficient Convolutional Neural Networks for Mobile Vision Applications

1、能够减少参数数量和计算量的原理

标准卷积

深度可分离卷积

depthwise精确度

2、神经网络结构

3、引入参数

（1）宽度乘数（width multiplier）

（2）分辨率乘数（resolution multiplier）

（3）参数的选择

三、MobileNetV2：Inverted Residuals and Linear Bottlenecks

1、主要改进点

2、先1x1卷积扩充通道数

3、线性激活函数

4、inverted residual block

4、relu6

补充

公告

keep going!~

苦尽甘来 定不负生而善之

MobilNnet

一、参数数量和理论计算量

1、定义

2、计算公式

二、MobileNetV1: Efficient Convolutional Neural Networks for Mobile Vision Applications

1、能够减少参数数量和计算量的原理

标准卷积

深度可分离卷积

depthwise精确度

2、神经网络结构

3、引入参数

（1）宽度乘数（width multiplier）

（2）分辨率乘数（resolution multiplier）

（3）参数的选择

三、MobileNetV2：Inverted Residuals and Linear Bottlenecks

1、主要改进点

2、先1x1卷积扩充通道数

3、线性激活函数

4、inverted residual block

4、relu6

补充

公告

苦尽甘来定不负生而善之