12 2018 档案

摘要:前言 Transfomer是一种encoder-decoder模型,在机器翻译领域主要就是通过encoder-decoder即seq2seq,将源语言(x1, x2 ... xn) 通过编码,再解码的方式映射成(y1, y2 ... ym), 之前的做法是用RNN进行encode-decoder,但 阅读全文
posted @ 2018-12-31 14:48 zhaop 阅读(469) 评论(0) 推荐(0) 编辑
摘要:seq2seq: seq2seq就是将输入序列经过encoder-decoder变成目标序列。 如图所示,输入序列是 [A, B, C, <EOS>],输出序列是 [W, X, Y, Z, <EOS>] encoder-decoder: 主要过程就是用RNN对输入序列进行编码,然后再用RNN对上下文 阅读全文
posted @ 2018-12-30 21:21 zhaop 阅读(394) 评论(0) 推荐(0) 编辑
摘要:在标量、向量和矩阵的求导过程中一定要知道最后结果的形状。 这里总结几个常见的求导形式: 前言: 最基础最重要的,标量对向量求导和向量对标量求导,有两种方式,分子布局和分母布局,不同的方式都是对的,只是结果缺一个转置 1、矩阵乘以列向量,对列向量求导,形如 $\boldsymbol{z} = \bol 阅读全文
posted @ 2018-12-26 20:13 zhaop 阅读(2508) 评论(0) 推荐(0) 编辑
摘要:目录 一、softmax 二、normalization 三、standardization 一、softmax 为什么使用softmax,不用normalization? “max” because amplifies probability of largest “soft” because s 阅读全文
posted @ 2018-12-20 15:32 zhaop 阅读(1376) 评论(0) 推荐(0) 编辑
摘要:1、tensorflow中dynamic_rnn和rnn有什么区别? 在tensorflow中没有找到rnn这个方法难道是废弃掉了? rnn是静态图,比如有10个时间序列,那么它将全部展开,并且存储这十个图, dynamic_rnn是动态的,不会全部存储这些图 dynamic_rnn对于不同的时间步 阅读全文
posted @ 2018-12-07 15:46 zhaop 阅读(140) 评论(0) 推荐(0) 编辑
摘要:含义 在训练过程中,对神经网络单元按照一定比例暂时将其丢弃。 原理 由于网络参数过多,训练数据少,或者训练次数过多,会产生过拟合的现象。dropout产生的一个重大原因就是为了避免过拟合。 每一层的神经元按照不同的概率进行dropout,这样每次训练的网络都不一样,对每一个的batch就相当于训练了 阅读全文
posted @ 2018-12-01 15:37 zhaop 阅读(2121) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示