摘要: 因为梯度更新的时候有三种方式: 第一种是batch gradient descent(批梯度下降),这种方式模型遍历所有数据后计算损失函数然后更新梯度,这样计算过于复杂,所以引出第二种。 第二种是stochastic gradient descent(随机梯度下降),就是每读取一个数据就计算损失函数 阅读全文
posted @ 2022-05-25 15:08 Uriel-w 阅读(98) 评论(0) 推荐(0) 编辑