网络流量预测入门(二)之LSTM介绍
网络流量预测入门(二)之LSTM介绍
这篇blog大家就随便看一下吧,基本上是参照RNN模型与NLP应用(4/9):LSTM模型这个是video和Understanding LSTM Networks这篇博客写出来的。实际上大家只需要看上述两个内容就🆗了,他们的教程深入浅出,形象生动。
在网络流量预测入门(一)之RNN 介绍中,对RNN的原理进行了介绍,然后,在简单明朗的 RNN 写诗教程中详细的介绍了如何使用keras构建RNN模型来写诗。
而在这篇blog中将对LSTM进行介绍。
LSTM简介
LSTM全称Long Short-Term Memory,中文名:长短期记忆,是一种循环网络。值得注意的是,Long Short-Term Memory中的-
是放在Short与Term中间的。相比较于Simple RNN,LSTM在长的时间序列中有着更好的表现。
Simple RNN网络会因为梯度消失问题,导致无法回忆起长久的记忆,也就是说Simple RNN是一个Short-Term Memory的模型。但是,LSTM通过某一些操作,使得其能够回忆起长久的记忆,也就是说它是一个长的短期记忆,因此被称之为 Long Short-Term Memory。——李宏毅
Simple RNN的弊端
RNN会面临两个问题:梯度消失问题和梯度爆炸问题,关于具体的公式推导,可以参考RNN 的梯度消失问题。
简单点来说,就是下图中的和会随着时间序列的加长,也就是layer层数的增多而产生梯度消失和梯度爆炸问题。而LSTM通过门的机制解决了整个问题。
下面将对LSTM的结构进行介绍。
LSTM的结构
下面是一张LSTM的结构示意图,来自Understanding LSTM Networks,看起来很复杂,确实相比较于RNN,它确实要复杂很多,但是却也没那么难理解。与Simple RNN很类似,input 一个,output一个状态。(只不过在其内部多了一个叫做Cell State的东西)
下图中,被重复的单元称之为细胞(Cell),也就是图中绿色的框框。
下图是结构图中所出现的符号:
先对符号做解释:
代表的是神经网络,中间的或者代表的是其激活函数。
表示逐点操作:
表示逐点相乘:
表示逐点相加:
表示逐点用tanh函数:
表示如下将两个矩阵连接起来:
LSTM发挥作用,离不开以下几个概念:Cell State ,Forget Gate,Input Gate ,Output Gate。下面将详细对其进行介绍。
细胞状态(Cell State)
Celle State是LSTM最关键的部分,它类似一条传输带,贯穿LSTM整个部分(可以形象地理解为主要矛盾)。举个例子:
当我们分析一部小说主题的时候,肯定不会一个字一个字地分析,我们会抓住主要矛盾,分析小说中的主要情节矛盾,然后判断一部小说的主题。
- 有些小说写的比较隐晦,主题可能会在后段部分才显现出来,因此我们在读小说的时候,会不断更新脑海中对主要矛盾的印象,往里面添加新的东西,同时删除某些次要的东西。
- 有的小说开门见山,在文章的开始就会告诉你主题是什么,因此,你在后面阅读的过程中,你就不会再向你脑海中的主要矛盾添加内容了,因为你知道后面的内容不会影响主要矛盾。
接下来将讨论三种门,不过在讨论三种门之前,我们应该先弄清楚什么是门。
内容参考于RNN模型与NLP应用(4/9):LSTM模型。
门(Gate)
在LSTM中有三种门,那么门到底是什么呢?门的作用很简单,就是让information选择性通过。门的结构如下图左边所示:
在这种情况下,当一个数据通过一个门🚪的时候( 中的每一个数都位于之间),会对数据 进行选择,可以让它全部通过(图中的),也可以让它完全不通过(图中的),当然也可以让它部分的通过。
而在LSTM分别有着以下三种门:Forget Gate,Input Gate,Output Gate。
遗忘门(Forget Gate)
遗忘门构成如下所示,中的每一个值都介于之间,其中和是LSTM在训练的时候,通过反向传播进行学习的。
遗忘门的作用很简单,那就是控制中哪一些数据应该被“遗忘”。
输入门(Input Gate)
图中的 表示输入门,表示待加入Cell State的数据。中的每一个值都介于之间,而的值介于之间,其中是通过反向传播进行学习更新的。
输入门的作用就是控制中哪一些数据能够加入到Cell State中。
Cell State的更新
Cell State的更新需要遗忘门和输入门的同时作用,遗忘门作用于上一个状态,输入门作用于当前输入。这样,当被遗忘门处理后的加上新的输入,就组成新的了,完成了一次Cell State的更新。
输出门(Output Gate)
输出门的结构如下说所示,中的每一个值都介于之间,其中和是LSTM在训练的时候,通过反向传播进行学习的。
输出门的作用实际上就是通过控制以达到控制的目的。
输出
输出的示意图如下所示,中的每一个值都位于之间,输出门通过控制的information,来产生输出。会被赋值为两份,一份作为下个layer的,一份用于LSTM在时序时刻的输出。
总结
以上,便是对LSTM结构的介绍,如果已经能够很好的理解上面的内容,让我们再回过头来看下面这张图,是不是就感觉简单起来了呢?
在下篇博客,将介绍如何使用LSTM来生成音乐。嘿嘿嘿~~
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示