卷积神经网络理解（2）

1、卷积神经网络的特点

卷积神经网络相对于普通神经网络在于以下四个特点：

局部感知域：CNN的神经元只与输入数据的一小部分区域相连接，这使得CNN对数据的局部结构具有强大的敏感性，可以自动学习到图像的特征。
参数共享：在CNN中，同一个卷积核（filter）在整个输入图像上滑动，共享权重和偏置。这减少了网络的参数量，提高了模型的泛化能力。
池化层：通过池化层，CNN可以降低特征图的分辨率，减少计算量，同时保留主要的特征信息，提高了网络的抗噪能力和泛化能力。
层次化特征提取：通过堆叠多层卷积层和池化层，网络可以逐级提取图像的抽象特征，从低级特征如边缘到高级特征如纹理、形状等。

2、卷积核如何获得的理解

卷积核参数的学习是通过反向传播算法来实现的。

在卷积神经网络的训练过程中，首先随机初始化卷积核参数。

然后，通过前向传播将输入数据与卷积核进行卷积操作，得到输出特征图。

接着，将输出特征图与标签数据进行比较，计算损失函数。

最后，通过反向传播算法，根据损失函数的梯度更新卷积核参数，使得损失函数最小化。

总结起来：卷积神经网络的卷积核参数是通过反向传播算法学习出来的。
在训练过程中，通过前向传播将输入数据与卷积核进行卷积操作，得到输出特征图。
然后，通过计算损失函数并利用反向传播算法，根据梯度更新卷积核参数，使得网络能够自动提取输入数据中的特征。
这样，卷积神经网络就能够实现图像识别和计算机视觉任务。

3、卷积操作的理解

图像上每个像素点都是一个数据，我们可以把图像看出一个 n

这里我们可以定义一个

卷积核一般选择

举例说明：

设图像的矩阵为5X5的矩阵：

$\begin{bmatrix}1&2&3&4&5\\6&7&8&9&10\\11&12&13&14&15\\16&17&18&19&20\\21&22&23&24&25\\\end{bmatrix}$

使用的卷积核是3X3的矩阵：

$\begin{bmatrix}1&2&3\\4&5&6\\7&8&9\\\end{bmatrix}$

设步长为1，也就是卷积核每次移动一格

先取出图片矩阵中左上角3X3的矩阵：

$\begin{bmatrix}1&2&3\\6&7&8\\11&12&13\\\end{bmatrix}$

将它们与卷积核相乘，这里不是矩阵的乘法，而是求内积，就是将两个矩阵对应位置的数相乘，然后再把数字相加起来.

即:

1 X 1 + 2 X 2 + 3 X 3 + 6 X 4 + 7 X 5 + 8 X 6 + 11 X 7 + 12 X 8 + 13 X 9 = 411

这样我们可以将运算后的结果放在矩阵中:

$\begin{bmatrix}411&X&X\\X&X&X\\X&X&X\\\end{bmatrix}$

步长为1，就是将卷积核向右移动一格，接下来和卷积核进行卷积操作的矩阵是:

$\begin{bmatrix}2&3&4\\7&8&9\\12&13&14\\\end{bmatrix}$

然后运算完成之后再填充入矩阵，放在411右边的位置。

对这一层的矩阵进行完卷积操作，由于步长为1，移动到下一层，如此循环，直到将图像遍历完成，就会输出一个比原图像小的矩阵：

步长改变为2

这里还可以将步长设置为2，对于图像来说，矩阵

$\begin{bmatrix}1&2&3\\6&7&8\\11&12&13\\\end{bmatrix}$ 与卷积核进行卷积后，跳过一格，接下来是 $\begin{bmatrix}3&4&5\\8&9&10\\13&14&15\\\end{bmatrix}$ 与卷积核进行操作。在换行的时候也是跳过一格，是

与卷积核进行操作，最后得到的是一个2 X 2 的矩阵。

增加偏置系数b

我们也可以在卷积运算的基础上加上一个偏置系数b

拿刚才步长为1的情况来说，就是

填充

有时候为了让输出图像和原图像大小相等，还会在图像外围加上

比如上面的5 X 5 矩阵，当padding = 1 时，

这样对图像用

我们知道，在线性回归

在卷积神经网络中，卷积核就是W ,它的初始值可以随便设，然后通过梯度下降法最小化损失函数来实现找到最优的卷积核参数。

至于卷积核该选择多大的,步长多少，要不要偏置系数，要不要padding。
对于不同的数据我们也得进行不同的分析，只有不断地尝试，才能够找到最优的方案。

4、池化操作的理解

池化可以对图片数据进行降维处理,常见的池化有最大池化，平均池化。

下面用

我们比如选择

最大池化就是对 $\begin{bmatrix}1&2\\5&6\\\end{bmatrix}$ 取最大值，即6,然后移动到 $\begin{bmatrix}2&3\\6&7\\\end{bmatrix}$ 中取最大值7，以此类推，步长同卷积操作，最后得到池化后的矩阵：

平均池化就是对 $\begin{bmatrix}1&2\\5&6\\\end{bmatrix}$ 取平均值，例如 $\frac{1+2+5+6}{4}=3.5$ ，如果这时候不是整数，可以用向下取整的方式取3.

池化要考虑的同样有选择几乘几的池化窗口(池化核)，选择平均池化还是最大池化，步长为多少，
还有 padding操作，这里也需要根据具体情况具体分析。

5、激活函数

在卷积操作中，我们将卷积核和图像在对应位置上进行相乘，再求和，这是一个线性的变换。

我们还需要一些非线性的变换，来增加模型的表达能力。

相信看过卷积神经网络结构（CNN）的伙伴们都知道，激活函数无处不在，特别是CNN中，在卷积层后，全连接（FC）后都有激活函数Relu的身影，
那么这就自然不得不让我们产生疑问：
问题1、为什么要用激活函数？它的作用是什么？
问题2、在CNN中为什么要用Relu，相比于sigmoid，tanh，它的优势在什么地方？
对于第1个问题：由 y = w * x + b 可知，如果不用激活函数，每个网络层的输出都是一种线性输出，而我们所处的现实场景，其实更多的是各种非线性的分布。
这也说明了激活函数的作用是将线性分布转化为非线性分布，能更逼近我们的真实场景。

下面介绍常见的几种激活函数:

ReLU函数： $f(x)=max(0,x)$ , 当x为负数时候 $f(x)=0$ ，当x 为正数的时候，它为x。