作业
1:文字回答:Batch Normalization 层中的加减乘除是什么意思?
减均值,除以标准差,乘gamma,加beta
2:文字回答:Batch Normalization 层中均值和标准差通过什么方式得到?
均值和标准差通过指数滑动平均统计得来
3:文字回答:采用Batch Normalization 对神经网络带来怎样的收益?
BN特性,只要加了BN不管用什么初始化方法都可以得到很好的效果;BN可充当正则;减小L2正则项因子,除以了5,控制约束权重尺度,把数值从饱和区拉回非饱和区
加速学习率衰减;移除LRN;更彻底的进行shuffle;减少图像光照扭曲(把数据都标准化一个区间了)
4:文字回答:读完该论文,对你的启发点有哪些?
1)两个模型组合优点,放在一句话:加速14倍是BN-x5,获得显著提升是BN-x30
2)0均值,1标准差的数据分布可加速网络训练
3)即使不去相关,0均值,1方差的数据分布也可加快网络训练
4)推理时,BN相当于线性变换,即缩放加平移,进一步的,可将BN层融合到卷积层中
5)bias作用被抵消,因此不需要bias,并且线性变换中的beta可充当bias
6)卷积层的BN中,不仅考虑batch维度,还考虑空间维度,以feature map维度进行求取均值,方差
7)一个样本的计算受到其它样本的约束,可认为是一种正则约束
8)堆叠使用2个3x3卷积,全面替换5x5卷积,并且基于更多卷积核
9)加速BN的7个改变:BN特性;BN可充当正则;减小L2正则项因子,除以了5,控制约束权重尺度,把数值从饱和区拉回非饱和区
加速学习率衰减;移除LRN;更彻底的进行shuffle;减少图像光照扭曲(把数据都标准化一个区间了)
10)GoogLeNet-V1采用ReLU和Sigmoid,获得的精度几乎是一样的,即ReLU在V1中并没有提升精度
11)GoogLeNet-V1训练到收敛,用了大约826个epochs,这一个数据在V1论文中从未给出
12)下一步工作:研究RNN中BN的效用,以及BN在预适应领域的应用
5:文字:本篇论文的学习笔记及总结