1、之前讲到随机梯度下降法(SGD),如果每次将batch个样本输入给模型,并更新一次,那么就成了batch梯度下降了。
2、batch梯度下降显然能够提高算法效率,同时相对于一个样本,batch个样本更能体现样本的总体分布。
3、但是也不是batch越大越好,容易陷入鞍点(横看最小,侧看最大);batch小的话增加了随机性,不容易陷入鞍点。
posted on 2019-04-14 22:19 WOTGL 阅读(337) 评论(0) 编辑 收藏 举报
Powered by: 博客园 Copyright © 2024 WOTGL Powered by .NET 9.0 on Kubernetes