//目录
摘要: gluon 版: 阅读全文
posted @ 2018-12-18 17:53 小草的大树梦 阅读(402) 评论(0) 推荐(0) 编辑
摘要: 之前有讨论过梯度下降法: 参数迭代 于是会产生问题,学习参数过小,模型很难到达最优点,而参数过大,某个参数会发散。 小批量随机梯度下降也讨论过了(线性回归的公式如下): 那么动量法呢? 简单地将梯度下降公式增加一个动量V,迭代公式如下: 原理: 当前阶段 t (时间步t)的变量 yt 是上一个阶段 阅读全文
posted @ 2018-12-18 17:08 小草的大树梦 阅读(1129) 评论(0) 推荐(0) 编辑