[DeeplearningAI笔记]序列模型1.10-1.12LSTM/BRNN/DeepRNN

5.1循环序列模型

觉得有用的话,欢迎一起讨论相互学习~

我的微博我的github我的B站

吴恩达老师课程原地址

1.10长短期记忆网络(Long short term memory)LSTM

Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735-1780.

门控循环神经网络单元GRU

长短期记忆网络LSTM

  • 记忆细胞更新:

C˘<t>=tanh(Wc[a<t1>,x<t>]+bc)

  • 更新门:

γu=σ(Wu[a<t1>,x<t>]+bu)

  • 遗忘门--遗忘门在GRU中相当于(1γu),在LSTM中使用专用的γf代替:

γf=σ(Wf[a<t1>,x<t>]+bf)

  • 输出门:

γo=σ(Wo[a<t1>,x<t>]+bo)

  • 记忆细胞:

c<t>=γuc˘<t>+γfc<t1>

  • a<t>=γotanh(c<t>)



1.11双向神经网络Bidirectional RNN

  • 这个模型可以让你在序列的某处不仅可以获取之前的信息,还可以获取未来的信息
  • 在这个句子中,根据原始的模型,并不能区别泰迪熊和美国前总统泰迪的区别。必须要使用到Teddy词后的信息才能识别出Teddy的意义。无论这些单元是标准的RNN块还是GRU单元或者是LSTM单元,前向的结构都不能够识别出Teddy的意义。
  • 双向神经网络结构如下图所示:

    这样的网络构成了一个无环图,其中信息的流向,如下动图中显示:

1.12深层循环神经网络Deepl RNNs

  • 通过计算a[2]<3>的值来了解RNN的计算过程,a[2]<3>有两个输入,一个是从下面传上来的a[1]<3>,一个是从左边传进来的输入a[2]<2>

a[2]<3>=g(Wa[2][a[2]<2>,a[1]<3>]+ba[2])

  • 对于普通的神经网络,也许可以经常看见100层神经网络,但是对于RNN来说,有三层就已经有很多参数了,因为有时间的维度,RNN会变得相当大,一般很少会看见RNN堆叠到很深的层次。
  • 但是深层次的预测却经常见到,即第三层的输出会连接上更深的层,但是水平方向上却不相连
posted @   WUST许志伟  阅读(511)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示