摘要:
一、可视化比较 1、示例一 上图描述了在一个曲面上,6种优化器的表现,从中可以大致看出:① 下降速度:三个自适应学习优化器Adagrad、RMSProp与AdaDelta的下降速度明显比SGD要快,其中,Adagrad和RMSProp齐头并进,要比AdaDelta要快。两个动量优化器Momentum 阅读全文
摘要:
一、梯度下降法 1、标准梯度下降法(GD) 公式:Wt+1=Wt−ηtΔJ(Wt) 其中,WtWt表示tt时刻的模型参数。 从表达式来看,模型参数的更新调整,与代价函数关于模型参数的梯度有关,即沿着梯度的方向不断减小模型参数,从而最小化代价函数。 基本策略可以理解为”在有限视距内寻找最快路径下山“, 阅读全文