摘要: 我们在训练的过程中,经常会出现loss不再下降的问题,但是此时gradient可能并没有很小,并非处于驻点。 可能是出现了梯度在山谷的山谷壁之间来回震荡的情况。gradient依然很大,但是loss不再减小了。 整个训练过程中,每个参数都一直使用同一个学习率,对于优化而言是不够的。学习率调整的原则是 阅读全文
posted @ 2021-09-12 14:34 奋斗的小仔 阅读(403) 评论(0) 推荐(0) 编辑