02 2021 档案
摘要:一、Batch Normalization(批量标准化)的介绍以及理解 在神经网络中,在每一层上,通常是将该层的输入乘以权重矩阵加上偏移值,然后将计算结果使用激活函数进行非线性变换。但是随着网络深度的增加,其激活函数的输入值(W*X+B)的分布会发生变化。 可能会向激活函数取值的饱和区域延伸(比如:
阅读全文
摘要:一、训练加速 多GPU训练: 1.1 基于数据的并行 模型平均(Model Average)、同步随机梯度下降(SSGD)、异步随机梯度下降(ASGD) 模型平均(Model Average) 每个Client训练平均的训练数据,每个batch更新一个模型,然后分别将模型发送给Server,Serv
阅读全文