摘要:
前言 Transfomer是一种encoder-decoder模型,在机器翻译领域主要就是通过encoder-decoder即seq2seq,将源语言(x1, x2 ... xn) 通过编码,再解码的方式映射成(y1, y2 ... ym), 之前的做法是用RNN进行encode-decoder,但 阅读全文
摘要:
seq2seq: seq2seq就是将输入序列经过encoder-decoder变成目标序列。 如图所示,输入序列是 [A, B, C, <EOS>],输出序列是 [W, X, Y, Z, <EOS>] encoder-decoder: 主要过程就是用RNN对输入序列进行编码,然后再用RNN对上下文 阅读全文
摘要:
在标量、向量和矩阵的求导过程中一定要知道最后结果的形状。 这里总结几个常见的求导形式: 前言: 最基础最重要的,标量对向量求导和向量对标量求导,有两种方式,分子布局和分母布局,不同的方式都是对的,只是结果缺一个转置 1、矩阵乘以列向量,对列向量求导,形如 $\boldsymbol{z} = \bol 阅读全文
摘要:
目录 一、softmax 二、normalization 三、standardization 一、softmax 为什么使用softmax,不用normalization? “max” because amplifies probability of largest “soft” because s 阅读全文
摘要:
1、tensorflow中dynamic_rnn和rnn有什么区别? 在tensorflow中没有找到rnn这个方法难道是废弃掉了? rnn是静态图,比如有10个时间序列,那么它将全部展开,并且存储这十个图, dynamic_rnn是动态的,不会全部存储这些图 dynamic_rnn对于不同的时间步 阅读全文
摘要:
含义 在训练过程中,对神经网络单元按照一定比例暂时将其丢弃。 原理 由于网络参数过多,训练数据少,或者训练次数过多,会产生过拟合的现象。dropout产生的一个重大原因就是为了避免过拟合。 每一层的神经元按照不同的概率进行dropout,这样每次训练的网络都不一样,对每一个的batch就相当于训练了 阅读全文
摘要:
一、最大似然估计与最大后验概率 1、概率与统计 概率与统计是两个不同的概念。 概率是指:模型参数已知,X未知,p(x1) ... p(xn) 都是对应的xi的概率 统计是指:模型参数未知,X已知,根据观测的现象,求模型的参数 2、似然函数与概率函数 似然跟概率是同义词,所以似然也是表示概率,但这个概 阅读全文
摘要:
一、关于分词 原则: 颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安 局长”、“公安局 长”、“公安局长”都算对,但是要用于语义分析,则“公安局长”的分词结果最好 切分结果中非词典词越少越好,单字字典词数越 阅读全文
摘要:
语言模型 语言模型 就是估测一些词的序列的概率,即预测 p(w1, w2, w3 ... wn), 一个应用就是句子的生成。 2. 语言模型的种类 Ngram ngram是一种统计的方法,它相当于固定了一个窗口,在这个窗口内的词是相关的,也就是第n个词和前n个词相关:P(s) = p(w1) p(w 阅读全文
摘要:
从宏观上讲,条件随机场就是给出一个序列 X = (x1, x2 ... xn) 得到 另一个序列 Y = (y1 , y2 ... yn)。 这两个序列有着一些独特的特性,满足马尔可夫随机场,我理解的满足马尔可夫随机就是 当前的状态 yi 只与 与它相连的状态(即yi-1, yi+1 )和 对应的 阅读全文