BN_batch normalization

参考：

https://zhuanlan.zhihu.com/p/27938792

做法

设，每个batch输入是（其中每个都是一个样本，是batch size）假如在第一层后加入Batch normalization layer后，的计算就倍替换为下图所示的那样。

矩阵先经过 $W_{h_1}$ 的线性变换后得到

注：因为减去batch的平均值 $\mu_B$ 后，的作用会被抵消掉，所以没必要加入（红色删除线）。

将再减去batch的平均值 $\mu_B$ ，并除以batch的标准差 $\sqrt{\sigma_B+\epsilon}$ 得到。 $\epsilon$ 是为了避免除数为0的情况所使用的微小正数。

$\mu_B=\frac {1}{m} \sum^m_{i=0}W_{h_1}x_{i,:}$
$\sigma^2_B=\frac {1}{m} \sum^m_{i=0}(W_{h_1}x_{i,:}-\mu_B)^2$
注：但基本会被限制在正态分布下，使得网络的表达能力下降。为解决该问题，引入两个新的parameters： $\gamma$ 和 $\beta$ 。 $\gamma$ 和 $\beta$ 是在训练时网络自己学习得到的。

将乘以 $\gamma$ 调整数值大小，再加上 $\beta$ 增加偏移后得到。
为加入非线性能力，也会跟随着ReLU等激活函数。
最终得到的会被送到下一层作为输入。

需要注意的是，上述的计算方法用于在训练。因为测试时常会只预测一个新样本，也就是说batch size为1。若还用相同的方法计算 $\mu_B$ ， $\mu_B$ 就会是这个新样本自身， $s_1-\mu_B$ 就会成为0。

所以在测试时，所使用的 $\mu$ 和 $\sigma^2$ 是整个训练集的均值 $\mu_P$ 和方差 $\sigma^2_P$ 。

而整个训练集的均值 $\mu_P$ 和方差 $\sigma^2_P$ 的值通常也是在训练的同时用移动平均法来计算

posted @ 2019-01-17 14:51 努力奋斗的阿贝拉阅读(166) 评论(0) 收藏举报

刷新页面返回顶部