摘要: 有关各种优化算法的详细算法流程和公式可以参考【 "这篇blog" 】,讲解比较清晰,这里说一下自己对他们之间关系的理解。 BGD 与 SGD 首先,最简单的 BGD 以整个训练集的梯度和作为更新方向,缺点是速度慢,一个 epoch 只能更新一次模型参数。 SGD 就是用来解决这个问题的,以每个样本的 阅读全文
posted @ 2019-03-30 22:19 Glowming 阅读(3165) 评论(0) 推荐(0) 编辑