摘要: SGD + momentum SGD是利用一个mini-batch的数据来近似估计梯度,有陷入局部最优或者马鞍点的问题 momentum是说当前梯度也受之前的梯度的影响,用加权的方式。可以按照光流的思想去类比理解。 阅读全文
posted @ 2020-12-29 20:25 WeiAR 阅读(173) 评论(0) 推荐(0) 编辑
摘要: Xavier 初始化 在随机初始化的基础上*(1/sqrt(Din)) 在标准正态分布上乘一个常数c,会变成均值为0,标准差为c的分布 //https://blog.csdn.net/shuzfan/article/details/51338178 输出 y = wx ,这个方差咋算? var(y) 阅读全文
posted @ 2020-12-29 19:00 WeiAR 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 在反向传播的时候能够加快收敛,避免all positicv or negetive && Z字型逼近最优解 阅读全文
posted @ 2020-12-29 11:30 WeiAR 阅读(257) 评论(0) 推荐(0) 编辑