摘要: 改进版梯度下降 发展历史 标准梯度下降法的缺陷 如果学习率选的不恰当会出现以上情况 因此有一些自动调学习率的方法。一般来说,随着迭代次数的增加,学习率应该越来越小,因为迭代次数增加后,得到的解应该比较靠近最优解,所以要缩小步长η,那么有什么公式吗?比如:,但是这样做后,所有参数更新时仍都采用同一个学 阅读全文
posted @ 2019-09-10 08:28 Timcode 阅读(542) 评论(0) 推荐(0) 编辑