第四周：卷积神经网络 part3

一、视频学习

应用：语音问答、股票预测、作词机、模仿写论文、模仿写代码。

循环神经网络与卷积神经网络对比：

卷积神经网络主要用于分类和检索。

两者之间的不同：传统的输入输出是相互独立的，而RNN可以考虑上下文的时序关系，不仅依赖于输入，还依赖于记忆

循环神经网络的基本结构：

展开以后是：

三块参数：U从输入到隐藏状态，W从前一隐藏层状态到下一个隐藏状态，V从隐藏状态到输出。Xt是时间t处的输入，ht是时间t处的记忆。

深度RNN：

双向RNN：双向RNN结合时间上从序列起点开始移动的RNN和另一个时间上从序列末尾开始移动的RNN。

传统RNN的问题：

当循环神经网络在时间维度上非常深的时候，会导致梯度消失或者梯度消失。导致模型训练不稳定，梯度为无效数字或者无穷大的值。

改进：

梯度爆炸：权重衰减（权重加上一个值）；梯度截断（梯度高于或者低于阈值时，使梯度等于该阈值）

梯度消失：改进模型；LSTM；GRU

LSTM：长短时记忆

拥有三个门：遗忘门，输入门，输出门。

遗忘门：决定丢弃信息，就是一个sigmoid函数，输出在0-1之间，根据ft的值决定是否通过。

输入门：首先经过sigmoid层决定什么信息需要更新，然后通过tanh层输出备选的需要更新的内容，然后加入新的状态中。

输出门：首先通过sigmoid来确定细胞状态的哪个部分将输出出去。然后通过tanh进行处理并将结果与sigmoid输出的结果相乘，然后根据结果决定是否输出。初始值一般为1或5

如何解决梯度消失的：

GRU来简化了LSTM的计算：

只有两个门：重置门，更新门

posted @ 2020-08-22 09:39 如梦似幻11 阅读(138) 评论(0) 编辑收藏举报

刷新页面返回顶部