第四周:卷积神经网络 part3

一、绪论

1、应用

语音问答、机器翻译、股票预测、作诗作词、模仿写论文/代码、图像理解、视觉问答

2、循环神经网络vs卷积神经网络

传统神经网络,卷积神经网络,输入和输出是相互独立的

RNN可以更好的处理具有时序关系的任务

RNN通过其循环结构引入“记忆”的概念

二、基本结构

深度RNN

双向RNN

BPTT算法

三、变种

1. 传统RNN的问题

当前循环神经网络在时间维度上非常深的时候,会导致梯度消失或者梯度爆炸的问题。

梯度爆炸导致:模型训练不稳定,梯度变为Nan(无效数字)或Inf(无穷大)

梯度爆炸改进:权重衰减,梯度截断

梯度消失导致:长时依赖问题(随着时间间隔的不断增大,RNN会丧失学习到的连接很远的信息的能力)

梯度消失问题:改进模型,LSTM,GRU

2. LSTM

LSTM(长短期记忆模型)由三个门(遗忘门、输入门、输出门)组成,来保护和控制细胞状态。

遗忘门:决定丢弃信息

输入门:确认需要更新的信息

输入门:确认需要更新的信息

LSTM是以一定概率忘记过去的事情,以一定概率记住现在的事情。

LSTM的一个初始化技巧就是将输出门的 bias设置为正数,这样模型开始训练时forget gate的值接近于1,不会发生梯度消失问题。

3. LSTM变形

 

4. GRU

四、扩展

1. 解决RNN梯度消失问题的其他方法

2. 基于attention的RNN

什么是attention?

是受到人类注意力机制的启发,人们在进行观察图像的时候,其实并不是一次就把整幅图像的每个位置像素都看过,大多是根据需求将注意力集中到图像的特定部分。而且人类会根据之前观察的图像学习到未来要观察图像注意力应该集中的位置。

 

posted @ 2020-08-21 17:29  fmz626  阅读(299)  评论(0编辑  收藏  举报