DeepLearning.ai学习笔记（四）卷积神经网络 -- week2深度卷积神经网络实例探究

一、为什么要进行实例探究？

通过他人的实例可以更好的理解如何构建卷积神经网络，本周课程主要会介绍如下网络

LeNet-5
AlexNet
VGG
ResNet (有152层)
Inception

二、经典网络

1.LeNet-5

该网络主要针对灰度图像训练的，用于识别手写数字。

该网络是在1980s提出的，当时很少用到Padding，所以可以看到随着网络层次增加，图像的高度和宽度都是逐渐减小的，深度则不断增加。

另外当时人们会更倾向于使用Average Pooling，但是现在则更推荐使用Max Pooling。

还有就是最后的预测没有使用softmax，而是使用了一般的方法

2. AlexNet

AlexNet其实和LetNet-5有很多相似的地方，如大致的网络结构。不同的地方主要有如下：

激活函数使用的是Relu，最后一层使用的是Softmax
参数更多，有6000万个参数，而LeNet-5只有6万个左右
使用Max Pooling

3.VGG-16

这个网络有点牛逼了，因为它有将近1.38亿个参数，即使放到现在也是一个很大的网络，但是这个网络的结构并不复杂。下面主要介绍一下上图网络。

首先该网络使用的是Same卷积，即保证高度和宽度不变，另外因为总共有16层卷积操作，所以就不把每一层都用图像的方式表现出来了，例如[CONV 64 X2]表示的是用64个过滤器进行Same卷积操作2次，即右上角所画的示意图，(224,224,3) -> (224,224,64) -> (224,224,64)

上面三个是比较经典的网络，如果想深入的理解，可以阅读其论文，不过吴大大建议的阅读顺序是AlexNet->VGG->LeNet。

三、残差网络(Residual Network)

视频开始，吴大大表示“非常深的网络是很难训练的，因为存在梯度消失和梯度爆炸的问题”，为了解决这个问题，引入了(跳远链接)Skip Connection(跳远链接)，残差网络正是使用了这个方法。

残差块(Residual Block)

首先介绍组成残差网络的单元：残差块(Residual Block)，如下图示：

残差块是由两层网络节点组成的,\(a^{[l]}\)经过线性变化，再通过Relu激活函数后得到\(a^{[l+1]}\),\(a^{[l+2]}\)也同理，具体过程如下图示：

特别注意上图中的紫色线连接，\(a^{[l]}\)通过这条线直接将数据传递给\(a^{[l+2]}\),所以\(a^{[l+2]}=g(z^{[l+1]}+a^{[l]})\)，这条紫色线也叫作short cut(或skip connection)

残差网络

如图示，残差网络每两层网络节点组成一个残差块，这也就是其与普通网络(Plain Network)的差别。

结合之前的课程我们知道如果使用普通网络训练模型，训练误差会随着网络层次加深先减小，而后会开始增加，而残差网络则不会有这种情况，反而它会随着层次增加，误差也会越来越小，这与理论相符。

四、残差网络为什么有用？

为了直观解释残差网络为什么有用，假设我们已经通过一个很大的神经网络得到了\(a^{[l]}\)。而现在我们又需要添加两层网络进去，我们看看如果添加的是残差块会有什么效果。如下图示：

由残差块的特点我们知道\(a^{[l+2]}=g(z^{[l+1]}+a^{[l]})=g(W^{[l+1]}a^{[l]}+b^{[l+1]}+a^{[l]})\)。

我们先考虑一个极端情况，即\(W^{[l+1]}=0,b^{[l+1]}=0\),那么\(a^{[l+2]}=g(a^{[l]})=a^{[l]}\) (因为激活函数是Relu)，所以在添加了额外的两层网络后，即使最坏情况也是保持和之前结果一样。而如果只是加上普通的两层网络，可能结果会更好，但是也很有可能结果会越来越糟糕，这也就是为什么残差网络能够保证深度网络依旧有用的原因了。

另外有个问题需要注意的是各层网络的维度，因为\(a^{[l+2]}=g(z^{[l+1]}+a^{[l]})\),那么就要求\(z^{[l+1]}\)要和\(a^{[l]}\)保持相同的维度所以残差网络使用的是Same卷积。
但是如果唯独不一样也没关系，可以给\(a^{[l]}\)乘上一个\(W_s\)来保持相同维度。\(W_s\)的值可以通过学习获得