摘要:
递归神经网络(RNN)对于自然语言处理和其他序列任务非常有效,因为它们具有“记忆”功能。 它们可以一次读取一个输入x⟨t⟩(如单词),并且通过隐藏层激活从一个时间步传递到下一个时间步来记住一些信息/上下文,这允许单向RNN从过去获取信息来处理后面的输入,双向RNN可以从过去和未来中获取上下文。 有些 阅读全文
摘要:
我们初学的算法一般都是从SGD入门的,参数更新是: 它的梯度路线为: 但是可以看出它的上下波动很大,收敛的速度很慢。因此根据这些原因,有人提出了Momentum优化算法,这个是基于SGD的,简单理解,就是为了防止波动,取前几次波动的平均值当做这次的W。这个就用到理论的计算梯度的指数加权平均数,引进超 阅读全文
摘要:
1. 什么是指数加权平均 指数加权平均(exponentially weighted averges),也叫指数加权移动平均,是一种常用的序列数据处理方式。 它的计算公式如下: 其中, θ_t:为第 t 天的实际观察值, V_t: 是要代替 θ_t 的估计值,也就是第 t 天的指数加权平均值, β: 阅读全文