摘要: 梯度爆炸 原因:梯度变得非常大,使得学习过程难以继续 现象:观察log,注意每一轮迭代后的loss。loss随着每轮迭代越来越大,最终超过了浮点型表示的范围,就变成了NaN。 措施: 1. 减小solver.prototxt中的base_lr,至少减小一个数量级。如果有多个loss layer,需要 阅读全文
posted @ 2017-12-25 21:47 木易修 阅读(2526) 评论(0) 推荐(0) 编辑