2017 年 12月 25 日随笔档案 - 木易修

2017年12月25日

摘要：梯度爆炸原因：梯度变得非常大，使得学习过程难以继续现象：观察log，注意每一轮迭代后的loss。loss随着每轮迭代越来越大，最终超过了浮点型表示的范围，就变成了NaN。措施： 1. 减小solver.prototxt中的base_lr，至少减小一个数量级。如果有多个loss layer，需要阅读全文

posted @ 2017-12-25 21:47 木易修阅读(2526) 评论(0) 推荐(0) 编辑

木易修的博K

练内功。。。

公告