乞力马扎罗的雪顶  

2020年2月18日

摘要: 梯度下降 1.随机梯度下降 2.使用动量的随机梯度下降 参考李宏毅教授的机器学习课程,加入了动量参数之后可以解决一部分局部最小值的问题; 虽然随机梯度下降仍然是非常受欢迎的优化方法,但学习速率有时会很慢。 动量方法 (Polyak, 1964) 旨在加速学习,特别是处理高曲率,小但一致的梯度,或是带 阅读全文
posted @ 2020-02-18 17:29 乞力马扎罗的雪顶 阅读(292) 评论(0) 推荐(0)