摘要: 当训练集特别大的时候(数万条起步),每一轮训练仅仅希望从中随机取出一部分数据(比如batch_size=64)计算模型损失值、执行梯度下降,这就是SGD随机梯度下降。 下面是一个demo,其实训练集一共只有四条数据。 看代码1: #encoding=utf-8 import torch import 阅读全文
posted @ 2020-12-15 16:13 爱吃砂糖橘的白龙 阅读(451) 评论(0) 推荐(0) 编辑