摘要:
SGD + momentum SGD是利用一个mini-batch的数据来近似估计梯度,有陷入局部最优或者马鞍点的问题 momentum是说当前梯度也受之前的梯度的影响,用加权的方式。可以按照光流的思想去类比理解。 阅读全文
摘要:
Xavier 初始化 在随机初始化的基础上*(1/sqrt(Din)) 在标准正态分布上乘一个常数c,会变成均值为0,标准差为c的分布 //https://blog.csdn.net/shuzfan/article/details/51338178 输出 y = wx ,这个方差咋算? var(y) 阅读全文
摘要:
在反向传播的时候能够加快收敛,避免all positicv or negetive && Z字型逼近最优解 阅读全文