PS: 经常看到一些卷积神经网络的知识,自己凭着自己看过的问法记录然后再寻找答案,答案不一定准确,另外,题目的顺序没有章法,基本上就是一些重点的问题, 如果有错误之处,还望指出。
本文涉及问题包含来自: https://blog.nowcoder.net/n/9c67c993bf9842a68aaa7622228c2299 (很不错的博客,在此向大佬致敬)
https://www.zhihu.com/search?type=content&q=mobile%20net%20v1%20%E3%80%81%20v2%20%E3%80%81%20v3%20
1.卷积的概念
2.图像卷积输出size 计算公式
output_size = (input_size - kernel_size + 2*padding)/ stride +1
3.感受野的概念和计算公式
感受野: CNN每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域大小.。
计算机公式: , 其中 lk-1 表示第 k-1层的感受野,而fk是当前层的卷积核大小,Si为第i 层的步长。
4.解释权值共享
卷积的时候,卷积核上面的一组权重是恒定不变的,也可以这样说,用一个卷积核去卷积一张图,这张图每个位置是被同样数值的卷积核操作的,权重是一样的,也就是参数共享。
5.CNN的特性
a.局部连接
b.权值共享
c.池化操作
d.多层系统
6. pooling 的作用及 max-pooling 和 average-pooling 的应用场景
pooling:对输入的特征图进行压缩,一方面使特征图变小,简化网络计算复杂度;一方面进行特征压缩,提取主要特征。
通常来讲,max-pooling的效果更好,虽然max-pooling和average-pooling都对数据做了下采样,但是max-pooling感觉更像是做了特征选择,选出了分类辨识度更好的特征,提供了非线性。 pooling的主要作用一方面是去掉冗余信息,一方面要保留feature map的特征信息,在分类问题中,我们需要知道的是这张图像有什么object,而不大关心这个object位置在哪,在这种情况下显然max pooling比average pooling更合适。在网络比较深的地方,特征已经稀疏了,从一块区域里选出最大的,比起这片区域的平均值来,更能把稀疏的特征传递下去。
average-pooling:更强调对整体特征信息进行一层下采样,在减少参数维度的贡献上更大一点,更多的体现在信息的完整传递这个维度上,在一个很大很有代表性的模型中,比如说DenseNet中的模块之间的连接大多采用average-pooling,在减少维度的同时,更有利信息传递到下一个模块进行特征提取。
average-pooling在全局平均池化操作中应用也比较广,在ResNet和Inception结构中最后一层都使用了平均池化。有的时候在模型接近分类器的末端使用全局平均池化还可以代替Flatten操作,使输入数据变成一位向量。
7. resnet提出解决的问题
解决深层卷积神经网络在反向传播中梯度消失问题。
8.CNN参数与计算量的计算
卷积输入为 W * H * C ,卷积核 K * K * N ,输出W1* H1*C1
- 计算量:W1* H1* C1 * K * K * C
- 参数量:C1* K * K * C
9.解决类别不平衡的相关方式
10. 激活函数的种类和优缺点
11.简述 Inception v1-v4区别、改进
V1
- 采用不同大小的卷积核意味着不同大小的感受野,最后拼接意味着不同尺度特征的融合;
- 将CNN中常用的卷积(1x1,3x3,5x5)、池化操作(3x3)堆叠在一起(卷积、池化后的尺寸相同,将通道相加),一方面增加了网络的宽度,另一方面也增加了网络对尺度的适应性;
- 为了减少计算量,增加了1x1卷积。
V2
- 卷积分解,将单个的5x5卷积层用2个连续的3x3卷积层组成的小网络来代替,在保持感受野范围的同时又减少了参数量,也加深了网络。
- 提出了著名的Batch Normalization (BN) 方法。BN会对每一个mini-batch数据的内部进行标准化(normalization),使输出规范到N(0,1)的正态分布,加快了网络的训练速度,还可以增大学习率。
- BN某种意义上起到了正则化的作用,所以可以减少或者取消dropout,简化网络结构。V2在训练达到V1准确率时快了14倍,最后收敛的准确率也比V1高。
V3
- 考虑了nx1卷积核,将一个较大的二维卷积拆成两个较小的一维卷积(7x7拆成了7x1和1x7,3x3拆成了1x3和3x1),一方面节约了大量参数,加速运算并减轻了过拟合),同时网络深度进一步增加,增加了网络的非线性。
- 优化了Inception Module的结构。
V4
利用残差连接(Residual Connection)来改进V3结构。
12. Inception v1中的inception结构怎么设计的
- 采用不同大小的卷积核意味着不同大小的感受野,最后拼接意味着不同尺度特征的融合;
- 该结构将CNN中常用的卷积(1x1,3x3,5x5)、池化操作(3x3)堆叠在一起(卷积、池化后的尺寸相同,将通道相加),一方面增加了网络的宽度,另一方面也增加了网络对尺度的适应性。
然而上面这个Inception原始版本,所有的卷积核都在上一层的所有输出上来做,而那个5x5的卷积核所需的计算量就太大了,约需要1.2亿次的计算量,造成了特征图的厚度很大。
3. 为了避免这种情况,在3x3前、5x5前、max pooling后分别加上了1x1的卷积核,以起到了降低特征图厚度的作用,这也就形成了Inception v1的网络结构,如下图所示:
13. 1*1 卷积的作用
a.升维和降维,可以节省参数量;
b.增加网络的非线性;
c.增加通道之间的交流和联系。
14.简述 CNN 的发展历程
- LeNet:2个卷积3个全连接,最早用于数字识别
- AlexNet:12年ImageNet冠军,5个卷积3个全连接,多个小卷积代替单一大卷积;使用ReLU激活函数,解决梯度小数问题;引入dropout避免模型过拟合;最大池化。
- ZF-Net:13年ImageNet冠军,只用了一块 GPU 的稠密连接结构;将AlexNet第一层卷积核由11变成7,步长由4变为2。
- VGG-Nets:14年ImageNet分类第二名,更深的网络,卷积层使用更小的filter尺寸和间隔;多个小卷积让网络有更多的非线性,更少的参数。
- GoogLeNet:14年ImageNet分类第一名。引入Inception模块,采用不同大小的卷积核意味着不同大小的感受野,最后拼接意味着不同尺度特征的融合;采用了average pooling来代替全连接层;避免梯度消失,网络额外增加了2个辅助的softmax用于向前传导梯度。
- ResNet:引入残差单元,简化学习目标和难度,加快训练速度,模型加深时,不会产生退化问题;能够有效解决训练过程中梯度消失和梯度爆炸问题。
- DenseNet:密集连接;加强特征传播,鼓励特征复用,极大的减少了参数量。
15.讲一下CNN,每个层及作用
CNN的特征检测层通过训练数据进行学习
- 所以在使用CNN时,避免了显示的特征抽取,而隐式地从训练数据中进行学习;
- 由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。
- 卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性。权值共享降低了网络的复杂性,特别是***输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。
卷积神经网络(CNN)主要由卷积层、激活函数、池化层、全连接层组成。
- 卷积层(Conv):使用卷积核进行特征提取和特征映射
- 激活函数(Activation):由于卷积也是一种线性运算,因此需要增加非线性映射
- 池化层(Pool):对输入的特征图进行压缩,一方面使特征图变小,简化网络计算复杂度;一方面进行特征压缩,提取主要特征
- 全连接层(FC):连接所有的特征,将输出值送给分类器
16. Pooling层怎么反向传播
CNN网络中另外一个不可导的环节就是Pooling池化操作,因为Pooling操作使得feature map的尺寸变化,假如做2×2的池化(步长也为2),假设那么第l+1层的feature map有16个梯度,那么第l层就会有64个梯度,这使得梯度无法对位的进行传播下去。其实解决这个问题的思想也很简单,就是把1个像素的梯度传递给4个像素,但是需要保证传递的loss(或者梯度)总和不变。根据这条原则,mean pooling和max pooling的反向传播也是不同的
mean pooling
mean pooling的前向传播就是把一个patch中的值求取平均来做pooling,那么反向传播的过程也就是把某个元素的梯度等分为n份分配给前一层,这样就保证池化前后的梯度(残差)之和保持不变,图示如下 :4
max pooling
max pooling也要满足梯度之和不变的原则,max pooling的前向传播是把patch中最大的值传递给后一层,而其他像素的值直接被舍弃掉。那么反向传播也就是把梯度直接传给前一层某一个像素,而其他像素不接受梯度,也就是为0。所以max pooling操作和mean pooling操作不同点在于需要记录下池化操作时到底哪个像素的值是最大,也就是max id,这个变量就是记录最大值所在位置的,因为在反向传播中要用到,那么假设前向传播和反向传播的过程就如下图所示 :
17. Mobilenet V1、V2、V3
Molilenet V1:介绍MobileNetV1(以下简称V1)只有一句话, V1就是把VGG中的标准卷积层换成深度可分离卷积就可以了。
深度可分离卷积 = 深度卷积 + 逐点卷积(1*1 卷积)
其中, DK 为标准卷积核大小,M 是输入 feature map 通道数,DF 为输出 feature map 大小,N 是输出 feature map 通道数,深度卷积的卷积核尺寸Dk×Dk×M,一共要做Dw×Dh次乘加运算;逐点卷积的卷积核尺寸为1×1×M,有N个,一共要做Dw×Dh次乘加运算。
实例:
假设输出为一个224×224×3的图像,VGG网络某层卷积输入的尺寸是112×112×64的特征图,卷积核为3×3×128,标准卷积的运算量是:
3×3×128×64×112×112 = 924844032
深度可分离卷积的运算量是:
3×3×64×112×112+128×64×112×112 = 109985792
这一层,MobileNetV1所采用的深度可分离卷积计算量与标准卷积计算量的比值为:
109985792 /924844032 = 0.1189 ,与我们所计算的九分之一到八分之一一致。
Mobilenet V2:
提出原因:V1中的深度卷积部分的卷积核比较容易训废掉:训完之后发现深度卷积训出来的卷积核有不少是空的, 对低维度做ReLU运算,很容易造成信息的丢失。而在高维度进行ReLU运算的话,信息的丢失则会很少:
解决方法: 引入的具有线性瓶颈的倒残差结构(the inverted residual with linear bottleneck);
MobileNet V2 & Resnet
可以发现,都采用了 1×1 -> 3 ×3 -> 1 × 1 的模式,以及都使用Shortcut结构。但是不同点呢:
- ResNet 先降维 (0.25倍)、卷积、再升维。
- MobileNetV2 则是 先升维 (6倍)、卷积、再降维。
刚好V2的block刚好与Resnet的block相反,作者将其命名为Inverted residuals。就是论文名中的Inverted residuals。
MobileNet V3:
- 0.网络的架构基于NAS实现的MnasNet(效果比MobileNetV2好)
- 1.引入MobileNetV1的深度可分离卷积
- 2.引入MobileNetV2的具有线性瓶颈的倒残差结构
- 3.引入基于squeeze and excitation结构的轻量级注意力模型(SE)
- 4.使用了一种新的激活函数h-swish(x)
- 5.网络结构搜索中,结合两种技术:资源受限的NAS(platform-aware NAS)与NetAdapt
- 6.修改了MobileNetV2网络端部最后阶段
18.为什么现在基本不用大卷积核
20. 梯度消失与梯度爆炸
解决方法:
A. 预训练加微调;
B. 梯度剪切这个方案主要是针对梯度爆炸提出的,其思想是设置一个梯度剪切阈值,然后更新梯度的时候,如果梯度超过这个阈值,那么就将其强制限制在这个范围之内。这可以防止梯度爆炸;
C.另外一种解决梯度爆炸的手段是采用权重正则化(weithts regularization)比较常见的是[Math Processing Error] l1l1正则,和[Math Processing Error] l2l2正则,在各个深度框架中都有相应的API可以使用正则化;
D. relu、leakrelu、elu等激活函数;
E. batchnormalization: 从根本上解决梯度消失和梯度爆炸问题。
21.减缓过拟合方法
a . 引入正则化
b. Dropout
c. 提前终止训练
d. 增加样本量
e. Batch norma| lization
f. Bagging和其他集成方法(正则化)
g. 辅助分类节点(正则化)
h. 参数绑定和参数共享
22.解决欠拟合方式
23. 梯度下降与拟牛顿法的异同?
24. CNN如何减少参数?
25. Dropout 在训练阶段与测试阶段的异同
Dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。由于是随机丢弃,故而每一个mini-batch都在训练不同的网络。
在测试阶段,将参与学习的节点和那些被隐藏的节点以一定的概率p加权求和,综合计算得到网络的输出。
26. NN的权重参数能否初始化为0?
27. relu的有优点?又有什么局限性?他们的系列改进方法是啥?
28. dropout为何能防止过拟合?
29.卷积平移不变性的原因?