2020 年 12月 15 日随笔档案 - 爱吃砂糖橘的白龙

2020年12月15日

摘要：当训练集特别大的时候（数万条起步），每一轮训练仅仅希望从中随机取出一部分数据（比如batch_size=64）计算模型损失值、执行梯度下降，这就是SGD随机梯度下降。下面是一个demo，其实训练集一共只有四条数据。看代码1： #encoding=utf-8 import torch import 阅读全文

posted @ 2020-12-15 16:13 爱吃砂糖橘的白龙阅读(451) 评论(0) 推荐(0) 编辑

Mr.Higgerw

越努力，越幸运

公告