随笔分类 -  深度学习——最优化

摘要:SGD + momentum SGD是利用一个mini-batch的数据来近似估计梯度,有陷入局部最优或者马鞍点的问题 momentum是说当前梯度也受之前的梯度的影响,用加权的方式。可以按照光流的思想去类比理解。 阅读全文
posted @ 2020-12-29 20:25 WeiAR 阅读(174) 评论(0) 推荐(0) 编辑