机器学习之神经网络

前言

以下内容是个人学习之后的感悟，转载请注明出处~

　　由于神经网络内容有点儿多，所以在此处建立以下目录，方便读者浏览。

简介
神经网络原理
BP神经网络
梯度检验
参数随机初始化

简介

神经细胞和人身上任何其他类型细胞十分不同，每个神经细胞都长着一根像电线一样的称为轴突（axon）的东西，它的

长度有时伸展到几厘米，用来将信号传递给其他的神经细胞。神经细胞的结构如下图所示。它由一个细胞体(soma)、一些树

突(dendrite) 、和一根可以很长的轴突组成。神经细胞体是一颗星状球形物，里面有一个核(nucleus)。树突由细胞体向各个

方向长出，本身可有分支，是用来接收信号的。轴突也有许多的分支。轴突通过分支的末梢(terminal)和其他神经细胞的树突

相接触,形成所谓的突触(Synapse), （图中未画出），一个神经细胞通过轴突和突触把产生的信号送到其他的神经细胞。

　　正是由于数量巨大的连接，使得大脑具备难以置信的能力。尽管每一个神经细胞仅仅工作于大约100Hz的频率，但因各

个神经细胞都以独立处理单元的形式并行工作着，使人类的大脑具有下面这些非常明显的特点：

能实现无监督的学习
对损伤有冗余性(tolerance)
处理信息的效率极高
善于归纳推广
它是有意识的

　　因此，一个人工神经网络( Artificial neural network, ANN）简称神经网络（NN)，就是要在当代数字计算机现有规模的

约束下，来模拟这种大量的并行性, 并在实现这一工作时，使它能显示许多和人或动物大脑相类似的特性。

神经网络原理

　　神经网络是一种非线性学习算法，神经网络中最基本的成分是神经元（neuron），下面给出神经元的基本模型：

　　进入人工神经细胞的每一个样本特征x_i都与一个权重θ相乘，作为图中橘色大圆的输入。橘色大圆的“核”是一个激励函数，

它把所有这些新的、经过权重调整后的输入全部加起来，形成单个的激励值。然后，激励函数根据激励值产生输出。激励函数有

好多种类型，常见的有以下几种：

　　介绍完神经元的基本模型，接下来介绍的是神经网络的基本模型：

　　上图中并未画出x₀和a₀，其值一般取+1，θ₁₀⁽¹⁾和θ₂₀⁽²⁾分别是它们的权值。上图中的三个层次分别是输入层、隐藏层、输

出层，其实现的整个过程如下列公式所示（其中g()即为激励函数）：

　　一般在分类应用中，需要分很多类别，那么，神经网络在多分类应用中又是怎么实现的呢？看下图，我们可以清晰地看到，采

用二进制编码式的形式，可以完美地解决这个问题。

　　那么又是如何求出这些权重值得呢，其实学过线性回归、逻辑回归的童鞋应该知道，对~，使用代价函数。但是神经网络的激

励函数不同，其代价函数也有所不同，为了方便起见，此处与下文的激励函数全部取为S型函数。神经网络的代价函数如下，由于

此处采用的是S型函数，是否会觉得其形式有点像逻辑回归的代价函数呢？（本人看了一下，正则项还是区别很大的~）

BP神经网络

　　BP（Back Propagation）神经网络是目前神经网络领域最成功的算法之一。它是一种按误差逆传播算法训练的多层前馈网络，

能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。

　　BP算法可以求出最佳权值 $\theta$ ，下面来看看BP算法的基本原理。首先，利用前向传播算法求出各层的激励值，如下图所示：

　　接下来看BP算法：定义 $\delta _{i}^{(l)}$ 为第L层单元i的残差。BP算法的目标是最小化J(θ)。而对于样例 $(x^{(i)},y^{(i)})$ 来说，其均方误差为：

$J(\theta ) = E_{i} = \frac{1}{2}\sum_{j=1}^{k}(h_{\theta }(x^{(i)})_{k} - y^{(i)_{k}})^{2}$

　　在梯度下降中，每一次迭代都按如下公式对参数 $\theta$ 更新：

$\theta _{ji}^{(l)} = \theta _{ji}^{(l)} - \alpha \frac{\partial }{\partial \theta _{ji}^{(l)}}J(\theta )$ ， $b_{i}^{(l)} = b_{i}^{(l)} - \alpha \frac{\partial}{\partial b_{i}^{(l)}} J(\theta,b)$

　　BP算法的思路如下：给定一个样例 $(x^{(i)},y^{(i)})$ ，先根据前向传导（forward propagation）计算出神经网络中的所有激活值。针

对第 $l$ 层的每一个节点i，我们可以计算出其“残差” $\delta _{i}^{(l)}$ ，该残差表明了该节点对最终输出值的残差产生了多少影响。其实可以直白的

理解为：令 $\delta _{i}^{(l)} = \frac{\partial E}{\partial z_{i}^{(l)}}$ ，为了计算的方便，因为算每一层的权重梯度都要依赖后一层，以此类推。对于最后一层输出层，我们可以直

接计算出神经网络的输出 $a_{i}^{(l)}$ 与实际类别值之间的残差。那么重点是对于隐藏层该如何处理？我们将基于节点第 $l+1$ 层的残差的加权平

均值计算出 $\delta _{i}^{(l)}$ ，这些节点以 $a_{i}^{(l)}$ 作为输入。

因此，对于最后一层输出层L(用L表示最后一层输出层)来说：

$\begin{array}{lcl}\delta _{i}^{(L)} &=& \frac{\partial E}{\partial z_{i}^{(L)}} = \frac{\partial }{\partial z_{i}^{(L)}}\frac{1}{2}\sum_{j=1}^{S_{L}}(h_{\theta }(x)_{j} - y_{j})^{2} = \frac{1}{2}\sum_{j=1}^{S_{L}}\frac{\partial }{\partial z_{i}^{(L)}}(g(z_{j}^{L})-y_{j})^{2} = (a_{i}^{L} - y_{i})\cdot {g}'(z_{i}^{(L)})\end{array}$

对于隐藏层 $l = L-1,L-2,...,2$ 来说：

因此可得：

$\delta _{i}^{(l)} = (\sum_{j=1}^{S_{l+1}}\theta _{ji}^{(l)}\delta _{i}^{(l+1)})\cdot {g}'(z_{i}^{(l)})$

这样，我们就可以求得偏导数： $\frac{\partial }{\partial \theta _{ij}^{(l)}}J(\theta) = \frac{\partial E}{\partial z_{i}^{(l+1)}}\frac{\partial z_{i}^{(l+1)}}{\partial \theta _{ij}^{(l)}} = \delta _{i}^{l+1}\cdot a_{j}^{(l)}$ ， $\frac{\partial}{\partial b_{i}^{(l)}} J(\theta,b) = \delta_i^{(l+1)}$ 。