深度学习之optimizer 优化方法
摘要:
BGD batch gradient descent,batch梯度下降。在训练中,每一步迭代都使用训练集的所有内容。用全量数据集去计算梯度,迭代参数。 优点: 由于每一步都利用了训练集中的所有数据,因此当损失函数达到最小值以后,能够保证此时计算出的梯度为0,换句话说,就是能够收敛.因此,使用BGD 阅读全文
posted @ 2017-08-08 19:51 csw_trying 阅读(255) 评论(0) 推荐(0) 编辑