吴恩达深度学习笔记（deeplearning.ai）之卷积神经网络（CNN）（上）

作者：szx_spark

1. Padding

在卷积操作中，过滤器（又称核）的大小通常为奇数，如3x3，5x5。这样的好处有两点：

在特征图（二维卷积）中就会存在一个中心像素点。有一个中心像素点会十分方便，便于指出过滤器的位置。
在没有padding的情况下，经过卷积操作，输出的数据维度会减少。以二维卷积为例，输入大小 \(n\times n\)，过滤器大小\(f\times f\)，卷积后输出的大小为\((n-f+1)\times(n-f+1)\)。
为了避免这种情况发生，可以采取padding操作，padding的长度为\(p\)，由于在二维情况下，上下左右都“添加”长度为\(p\)的数据。构造新的输入大小为\((n+2p)\times(n+2p)\) , 卷积后的输出变为\((n+2p-f+1)\times(n+2p-f+1)\)。
如果想使卷积操作不缩减数据的维度，那么\(p\)的大小应为\((f-1)/2\)，其中\(f\)是过滤器的大小，该值如果为奇数，会在原始数据上对称padding，否则，就会出现向上padding 1个，向下padding 2个，向左padding 1个，向右padding 2个的情况，破坏原始数据结构。

卷积中的步长大小为\(s\)，指过滤器在输入数据上，水平/竖直方向上每次移动的步长，在Padding 公式的基础上，最终卷积输出的维度大小为：

\[\left \lfloor \frac{n+2p-f}{s}+1 \right \rfloor \times \left \lfloor \frac{n+2p-f}{s}+1 \right \rfloor \]

\(\left \lfloor \right\rfloor\)符号指向下取整，在python 中为floor地板除操作。

通道，通常指数据的最后一个维度（三维），在计算机视觉中，RGB代表着3个通道(channel)。

举例说明：现在有一张图片的大小为\(6\times 6\times 3\)，过滤器的大小为\(3\times 3\times n_c\), 这里\(n_c\)指过滤器的channel大小，该数值必须与输入的channel大小相同，即\(n_c=3\)。
如果有\(k\)个\(3\times 3\times n_c\)的过滤器，那么卷积后的输出维度为\(4\times 4\times k\)。注意此时\(p=0, s=1\)，\(k\)表示输出数据的channel大小。一般情况下，\(k\)代表\(k\)个过滤器提取的k个特征，如\(k=128\)，代表128个\(3\times 3\)大小的过滤器，提取了128个特征，且卷积后的输出维度为\(4\times 4\times 128\)。

在多层卷积网络中，以计算机视觉为例，通常情况下，图像的长和宽会逐渐缩小，channel数量会逐渐增加。

课堂笔记中关于简单卷积神经网络的介绍：

一个用于手写数字识别的CNN结构如下图所示：

与卷积神经网络的参数数量计算相关的问题：

该手写数字识别的CNN具体参数数量可视化如下所示：

与只用全连接层相比，卷积层的主要优点是参数共享和稀疏连接，这使得卷积操作所需要学习的参数数量大大减少。

posted @ 2018-02-10 16:16 szx_spark 阅读(20074) 评论(3) 编辑收藏举报

刷新页面返回顶部