2020 年 3月 19 日随笔档案 - 这是一个ID

2020年3月19日

摘要：由于显卡限制batch size，通过梯度累积优化弥补。在训练的时候先累积多个batch的梯度，然后进行反向传播。网络中的bn层会对梯度累积造成一定的影响。 pytorch网络，如果bn层对整体模型影响不大，可以在训练时也用model.eval()冻结bn层。 pytorch：https://w 阅读全文

posted @ 2020-03-19 09:09 这是一个ID 阅读(846) 评论(0) 推荐(0) 编辑

Like a dog

like a god

公告