09 2019 档案

摘要:这两天在调参的时候,模型在batch_size=32时收敛得很好,performance也不错。但是发现GPU显存利用率很低,于是设置成batch_size=256,结果显卡利用率高了,模型不收敛。 batch_size小:一个epoch需要的时间长;可能出现训练不稳定(因为最后计算出的loss是对 阅读全文
posted @ 2019-09-23 15:41 拎壶冲AR 阅读(1066) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示