动手学深度学习 | 长短期记忆网络(LSTM)| 57

长短期记忆网络 LSTM

90年代发明的网络,其实挺复杂的,就现在其实大家也没有搞明白为什么要这么设计。

LSTM虽然是长得挺奇怪的,但是使用效果还是不错的,尽管是90年年代发明的网络。

LSTM其实要实现的效果和GRU是差不多的,只不过设计相对复杂一些。

GRU可以认为是对LSTM的一个简化?

但是目前来说,其实GRU和LSTM的性能表现是差不多的,说以其实选择哪个都是可以的。

代码

QA

  1. 为什么要对输出取tanh?

把输出的值控制在[0,1],有一个很重要的作用就是防止梯度爆炸。

  1. 如何计算一个模型占用的显存?以及一个batch占用的显存?

这个东西是很难的,这个要取决于你的框架优化的有多好。一般是很难准确估计的,要实际跑一下才能知道。

posted @ 2021-10-07 11:21  RowryCho  阅读(122)  评论(0编辑  收藏  举报