摘要: 在神经网络模型中,将 MOVING_AVERAGE_DECAY 设置为 0.99,参数 w1 设置为 0,w1 的滑动平均值设置为 0。 ①开始时,轮数 global_step 设置为 0,参数 w1 更新为 1,则 w1 的滑动平均值为: w1 滑动平均值=min(0.99,1/10)*0+(1– 阅读全文
posted @ 2019-06-01 21:40 浮沉沉浮 阅读(448) 评论(0) 推荐(0) 编辑
摘要: 对于随机梯度下降法,有前面的博客随机梯度下降法实例中可以看出,学习率的选取是很困难的,过大和过小都会出现问题;现在提出一种新方法来选取学习率。 每一轮: 代码为: 阅读全文
posted @ 2019-06-01 21:30 浮沉沉浮 阅读(655) 评论(0) 推荐(0) 编辑
摘要: 学习率 learning_rate:表示了每次参数更新的幅度大小。学习率过大,会导致待优化的参数在最 小值附近波动,不收敛;学习率过小,会导致待优化的参数收敛缓慢。 在训练过程中,参数的更新向着损失函数梯度下降的方向。 参数的更新公式为: 𝒘𝒏+𝟏 = 𝒘𝒏 − 𝒍𝒆𝒂𝒓𝒏𝒊� 阅读全文
posted @ 2019-06-01 20:50 浮沉沉浮 阅读(1394) 评论(0) 推荐(0) 编辑
摘要: 1. 梯度 在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称grad f(x,y)或者▽f(x,y)。对于在点(x0,y0)的具体梯度向量就是(∂f/∂ 阅读全文
posted @ 2019-06-01 15:33 浮沉沉浮 阅读(7436) 评论(0) 推荐(1) 编辑