深度学习-序列模型1
RNN的符号表示,序列样本,序列内部表示,生成y表示,Tx表示输入长度,Ty表示输出长度。
用到的one-hot编码
RNN的动机来源:
1、原始的神经网络,输入输出都是一个固定长度,但是序列是不定长度的,所以有了水平的时间方向的RNN
2、原始的神经网络没有体现出句子中位置的关系
如下图,左边是简单的RNN表示, 右边是常用的论文中的RNN简洁表示
如图,RNN的前向传播模型
简化,Wa矩阵直接拼接两个W矩阵,并且[a,x]是表示纵向拼接,这块以前看论文总是弄不懂。
依据前向传播,画出反向传播的大体方向,以及用到的损失函数和成本函数
RNN的常用框架类型:
1、one-to-one 一般不用
2、one-to-many 音乐生成
3、many-to-many 异步,编码器,解码器,机器翻译
many-to-many 同步,命名实体师表
4、many-to-one 情感分类,影视评价。
EOS表示结束,UNK表示不存在这个词
概率模型看待RNN的序列生成。