梯度积累优化

由于显卡限制batch size，通过梯度累积优化弥补。

在训练的时候先累积多个batch的梯度，然后进行反向传播。

网络中的bn层会对梯度累积造成一定的影响。

pytorch网络，如果bn层对整体模型影响不大，可以在训练时也用model.eval()冻结bn层。

pytorch：https://www.cnblogs.com/lart/p/11628696.html

tensorflow：https://www.lizenghai.com/archives/24715.html

posted @ 2020-03-19 09:09 这是一个ID 阅读(886) 评论(0) 收藏举报

刷新页面返回顶部