吴恩达《深度学习》第五门课（1）循环序列模型（RNN）

1.1为什么选择序列模型

（1）序列模型广泛应用于语音识别，音乐生成，情感分析，DNA序列分析，机器翻译，视频行为识别，命名实体识别等众多领域。

（2）上面那些问题可以看成使用（x，y）作为训练集的监督学习，但是输入与输出的对应关系有非常多的组合，比如一对一，多对多，一对多，多对一，多对多（个数不同）等情况来针对不同的应用。

1.2数学符号

（1）x^(i)<t>前面的i表示第i个训练样本，t表示某个序列样本中索引位置，如下面的一句话是一个样本，“and”的索引是3，序列的长度用Tx表示，下面句子中T_x=9。

（2）单词是无法直接输入到网络中，所以必须转成数子，用数字来表示单词。方法是将数据集中出现次数最多的10000个单词（这里用10000为例，可以更多），然后用one-hot来表示每一个单词，如下图所示：

1.3循环神经网络模型

（1）使用标准网络来做上面的命名实体识别，即找出句子中的人名，会存在两个明显的问题：第一是不同的训练样本的单词数不一样，当然可以使用pad来填充，第二是不能狗共享不同位置上学到的特征，用循环神经网络可以解决这些问题。

（2）循环神经网络将按照下图进行计算：

（3）数学式子如下所示：

将Waa和Wax合并在一起：

得到

（4）激活函数常用tanh,另外输出由于是用0，1表示是否是人名，所以用sotfmax激活函数。

1.4通过时间的反向传播

（1）一个元素的代价函数（一个0，1二分类问题，注意下面式子中应该是（1-y^<t>））：

（2）每一个样本的代价函数：

（3）RNN反向传播示意图：

1.5不同类型的循环神经网络

（1）如下图中，第一种是传统标准的网络层，第二是一对多（音乐生成），第三是多对一（情感分析），第四是多对多（输出与输入个数相等，语音识别），第五是多对多（输出与输入个数不一定相等，机器翻译）。

1.6语言模型和序列生成

（1）语言模型以下面两个句子为例，语言模型要解决的就是那个句子出现的概率更大，则输出哪个。

（2）句子的结束句号可以用one-hot表示，关于不在字典中的10000个词的其他词，可以统一用UNK表示，UNK是用one-hot表示的额，所以可以看成总共有10002个字典。

（3）语言模型如下图所示，首先第一个输出是在无任何提示下输出各个词的概率，第二个输出是在给定第一个输出标签时各个词（10002）输出的概率，以此类推，每一个输出都是在给定条件下一个输出各个单词的概率。

（4）训练网络时，上图中序号8和9分别代表了一个元素和一个样本的代价函数，代价函数使用的是交叉熵。

（5）在使用网络时，现在有一个包含三个词（y^<1>，y^<2>，y^<3>）的句子，这时网络没有任何信息的条件下求是y^<1>的概率，然后计算在给定y^<1>条件下y^<2>的概率，最后在给定y^<1>，y^<2>条件下y^<3>的概率。最后可以确定，输出是这个句子的概率如下图所示，回到最初的两个句子，可以分别求两个句子的概率，取概率最大的句子即可：