神经网络优化篇:详解归一化网络的激活函数(Normalizing activations in a network)

归一化网络的激活函数

在深度学习兴起后,最重要的一个思想是它的一种算法,叫做Batch归一化,由Sergey loffeChristian Szegedy两位研究者创造。Batch归一化会使的参数搜索问题变得很容易,使神经网络对超参数的选择更加稳定,超参数的范围会更加庞大,工作效果也很好,也会是的训练更加容易,甚至是深层网络。让来看看Batch归一化是怎么起作用的吧。

当训练一个模型,比如logistic回归时,也许会记得,归一化输入特征可以加快学习过程。计算了平均值,从训练集中减去平均值,计算了方差,接着根据方差归一化的数据集,在之前了解到的,这是如何把学习问题的轮廓,从很长的东西,变成更圆的东西,更易于算法优化。所以这是有效的,对logistic回归和神经网络的归一化输入特征值而言。

那么更深的模型呢?不仅输入了特征值x,而且这层有激活值a[1],这层有激活值a[2]等等。如果想训练这些参数,比如w[3]b[3],那归一化a[2]的平均值和方差岂不是很好?以便使w[3]b[3]的训练更有效率。在logistic回归的例子中,看到了如何归一化x1x2x3,会帮助更有效的训练wb

所以问题来了,对任何一个隐藏层而言,能否归一化a值,在此例中,比如说a[2]的值,但可以是任何隐藏层的,以更快的速度训练w[3]b[3],因为a[2]是下一层的输入值,所以就会影响w[3]b[3]的训练。简单来说,这就是Batch归一化的作用。尽管严格来说,真正归一化的不是a[2],而是z[2],深度学习文献中有一些争论,关于在激活函数之前是否应该将值z[2]归一化,或是否应该在应用激活函数a[2]后再规范值。实践中,经常做的是归一化z[2],所以这就是介绍的版本,推荐其为默认选择,那下面就是Batch归一化的使用方法。

在神经网络中,已知一些中间值,假设有一些隐藏单元值,从z(1)z(m),这些来源于隐藏层,所以这样写会更准确,即z[l](i)为隐藏层,i从1到m,但这样书写,要省略l及方括号,以便简化这一行的符号。所以已知这些值,如下,要计算平均值,强调一下,所有这些都是针对l层,但省略l及方括号,然后用正如常用的那个公式计算方差,接着,会取每个z(i)值,使其规范化,方法如下,减去均值再除以标准偏差,为了使数值稳定,通常将ε作为分母,以防σ=0的情况。

所以现在已把这些z值标准化,化为含平均值0和标准单位方差,所以z的每一个分量都含有平均值0和方差1,但不想让隐藏单元总是含有平均值0和方差1,也许隐藏单元有了不同的分布会有意义,所以所要做的就是计算,称之为z~(i)z~(i)=γznorm(i)+β,这里γβ是模型的学习参数,所以使用梯度下降或一些其它类似梯度下降的算法,比如Momentum或者NesterovAdam,会更新γβ,正如更新神经网络的权重一样。

请注意γβ的作用是,可以随意设置z~(i)的平均值,事实上,如果γ=σ2+ε,如果γ等于这个分母项(znorm(i)=z(i)μσ2+ε中的分母),β等于μ,这里的这个值是znorm(i)=z(i)μσ2+ε中的μ,那么γznorm(i)+β的作用在于,它会精确转化这个方程,如果这些成立(γ=σ2+ε,β=μ),那么z~(i)=z(i)

通过对γβ合理设定,规范化过程,即这四个等式,从根本来说,只是计算恒等函数,通过赋予γβ其它值,可以使构造含其它平均值和方差的隐藏单元值。

所以,在网络匹配这个单元的方式,之前可能是用z(1)z(2)等等,现在则会用z~(i)取代z(i),方便神经网络中的后续计算。如果想放回[l],以清楚的表明它位于哪层,可以把它放这。

所以希望学到的是,归一化输入特征X是怎样有助于神经网络中的学习,Batch归一化的作用是它适用的归一化过程,不只是输入层,甚至同样适用于神经网络中的深度隐藏层。应用Batch归一化了一些隐藏单元值中的平均值和方差,不过训练输入和这些隐藏单元值的一个区别是,也许不想隐藏单元值必须是平均值0和方差1。

比如,如果有sigmoid激活函数,不想让的值总是全部集中在这里,想使它们有更大的方差,或不是0的平均值,以便更好的利用非线性的sigmoid函数,而不是使所有的值都集中于这个线性版本中,这就是为什么有了γβ两个参数后,可以确保所有的z(i)值可以是想赋予的任意值,或者它的作用是保证隐藏的单元已使均值和方差标准化。那里,均值和方差由两参数控制,即γβ,学习算法可以设置为任何值,所以它真正的作用是,使隐藏单元值的均值和方差标准化,即z(i)有固定的均值和方差,均值和方差可以是0和1,也可以是其它值,它是由γβ两参数控制的。

posted @   Oten  阅读(205)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示