• 理论上循环神经网络可以支持任意长度的序列,然而在实际中,如果序列过长会导致优化时出现梯度消散(the vanishing gradient problem)的问题,在实际中一把会规定一个最大长度,当序列长度超过规定长度后会对序列进行截断

1. variant:GRU(gated recurrent unit)



  • zt=σ(Wz[ht1,xt])
  • rt=σ(Wr[ht1,xt])
  • h~t=tanh(W[rtht1,xt])
  • ht=ht1(1zt)+h~tzt
posted on 2016-11-28 23:38  未雨愁眸  阅读(119)  评论(0编辑  收藏  举报