上一页 1 2 3 4 5 6 ··· 28 下一页
摘要: 前言 Transfomer是一种encoder-decoder模型,在机器翻译领域主要就是通过encoder-decoder即seq2seq,将源语言(x1, x2 ... xn) 通过编码,再解码的方式映射成(y1, y2 ... ym), 之前的做法是用RNN进行encode-decoder,但 阅读全文
posted @ 2018-12-31 14:48 zhaop 阅读(459) 评论(0) 推荐(0) 编辑
摘要: seq2seq: seq2seq就是将输入序列经过encoder-decoder变成目标序列。 如图所示,输入序列是 [A, B, C, <EOS>],输出序列是 [W, X, Y, Z, <EOS>] encoder-decoder: 主要过程就是用RNN对输入序列进行编码,然后再用RNN对上下文 阅读全文
posted @ 2018-12-30 21:21 zhaop 阅读(392) 评论(0) 推荐(0) 编辑
摘要: 在标量、向量和矩阵的求导过程中一定要知道最后结果的形状。 这里总结几个常见的求导形式: 前言: 最基础最重要的,标量对向量求导和向量对标量求导,有两种方式,分子布局和分母布局,不同的方式都是对的,只是结果缺一个转置 1、矩阵乘以列向量,对列向量求导,形如 $\boldsymbol{z} = \bol 阅读全文
posted @ 2018-12-26 20:13 zhaop 阅读(2365) 评论(0) 推荐(0) 编辑
摘要: 目录 一、softmax 二、normalization 三、standardization 一、softmax 为什么使用softmax,不用normalization? “max” because amplifies probability of largest “soft” because s 阅读全文
posted @ 2018-12-20 15:32 zhaop 阅读(1218) 评论(0) 推荐(0) 编辑
摘要: 1、tensorflow中dynamic_rnn和rnn有什么区别? 在tensorflow中没有找到rnn这个方法难道是废弃掉了? rnn是静态图,比如有10个时间序列,那么它将全部展开,并且存储这十个图, dynamic_rnn是动态的,不会全部存储这些图 dynamic_rnn对于不同的时间步 阅读全文
posted @ 2018-12-07 15:46 zhaop 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 含义 在训练过程中,对神经网络单元按照一定比例暂时将其丢弃。 原理 由于网络参数过多,训练数据少,或者训练次数过多,会产生过拟合的现象。dropout产生的一个重大原因就是为了避免过拟合。 每一层的神经元按照不同的概率进行dropout,这样每次训练的网络都不一样,对每一个的batch就相当于训练了 阅读全文
posted @ 2018-12-01 15:37 zhaop 阅读(2081) 评论(0) 推荐(0) 编辑
摘要: 一、最大似然估计与最大后验概率 1、概率与统计 概率与统计是两个不同的概念。 概率是指:模型参数已知,X未知,p(x1) ... p(xn) 都是对应的xi的概率 统计是指:模型参数未知,X已知,根据观测的现象,求模型的参数 2、似然函数与概率函数 似然跟概率是同义词,所以似然也是表示概率,但这个概 阅读全文
posted @ 2018-11-25 19:33 zhaop 阅读(2258) 评论(0) 推荐(0) 编辑
摘要: 一、关于分词 原则: 颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安 局长”、“公安局 长”、“公安局长”都算对,但是要用于语义分析,则“公安局长”的分词结果最好 切分结果中非词典词越少越好,单字字典词数越 阅读全文
posted @ 2018-11-19 15:42 zhaop 阅读(1428) 评论(0) 推荐(0) 编辑
摘要: 语言模型 语言模型 就是估测一些词的序列的概率,即预测 p(w1, w2, w3 ... wn), 一个应用就是句子的生成。 2. 语言模型的种类 Ngram ngram是一种统计的方法,它相当于固定了一个窗口,在这个窗口内的词是相关的,也就是第n个词和前n个词相关:P(s) = p(w1) p(w 阅读全文
posted @ 2018-11-01 11:45 zhaop 阅读(746) 评论(0) 推荐(0) 编辑
摘要: 从宏观上讲,条件随机场就是给出一个序列 X = (x1, x2 ... xn) 得到 另一个序列 Y = (y1 , y2 ... yn)。 这两个序列有着一些独特的特性,满足马尔可夫随机场,我理解的满足马尔可夫随机就是 当前的状态 yi 只与 与它相连的状态(即yi-1, yi+1 )和 对应的 阅读全文
posted @ 2018-10-26 20:36 zhaop 阅读(234) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 28 下一页