2019 年 4月 27 日随笔档案 - CZiFan

2019年4月27日

优化算法：AdaGrad | RMSProp | AdaDelta | Adam

摘要： 0 - 引入简单的梯度下降等优化算法存在一个问题：目标函数自变量的每一个元素在相同时间步都使用同一个学习率来迭代，如果存在如下图的情况（不同自变量的梯度值有较大差别时候），存在如下问题：选择较小的学习率会使得梯度较大的自变量迭代过慢选择较大的学习率会使得梯度较小的自变量迭代发散因此，自然而然阅读全文

posted @ 2019-04-27 17:46 CZiFan 阅读(1661) 评论(0) 推荐(0) 编辑

CZiFan

公告