梯度下降的框架主要分三种: 1,全量梯度下降。每次使用全部的样本来更新模型参数,优点是收敛方向准确,缺点是收敛速度慢,内存消耗大。 2,随机梯度下降。每次使用一个样本来更新模型参数,优点是学习速度快,缺点是收敛不稳定。 3,批量梯度下降。每次使用一个batchsize的样本来更新模型参数,平衡了全量梯度下降和随机梯度下降的方法。