2019 年 6月 27 日随笔档案 - X18301096

2019年6月27日

摘要：一、可视化比较 1、示例一上图描述了在一个曲面上，6种优化器的表现，从中可以大致看出：① 下降速度：三个自适应学习优化器Adagrad、RMSProp与AdaDelta的下降速度明显比SGD要快，其中，Adagrad和RMSProp齐头并进，要比AdaDelta要快。两个动量优化器Momentum 阅读全文

posted @ 2019-06-27 10:55 X18301096 阅读(2473) 评论(0) 推荐(0) 编辑

机器学习优化器总结

摘要：一、梯度下降法 1、标准梯度下降法（GD）公式：Wt+1=Wt−ηtΔJ(Wt) 其中，WtWt表示tt时刻的模型参数。从表达式来看，模型参数的更新调整，与代价函数关于模型参数的梯度有关，即沿着梯度的方向不断减小模型参数，从而最小化代价函数。基本策略可以理解为”在有限视距内寻找最快路径下山“，阅读全文

posted @ 2019-06-27 10:12 X18301096 阅读(1352) 评论(0) 推荐(0) 编辑

X18301096

公告