zhaop

2018年12月31日

摘要：前言 Transfomer是一种encoder-decoder模型，在机器翻译领域主要就是通过encoder-decoder即seq2seq，将源语言(x1, x2 ... xn) 通过编码，再解码的方式映射成（y1, y2 ... ym), 之前的做法是用RNN进行encode-decoder,但阅读全文

posted @ 2018-12-31 14:48 zhaop 阅读(469) 评论(0) 推荐(0) 编辑

2018年12月30日

seq2seq

摘要： seq2seq: seq2seq就是将输入序列经过encoder-decoder变成目标序列。如图所示，输入序列是 [A, B, C, <EOS>]，输出序列是 [W, X, Y, Z, <EOS>] encoder-decoder: 主要过程就是用RNN对输入序列进行编码，然后再用RNN对上下文阅读全文

posted @ 2018-12-30 21:21 zhaop 阅读(394) 评论(0) 推荐(0) 编辑

2018年12月26日

矩阵向量求导术

摘要：在标量、向量和矩阵的求导过程中一定要知道最后结果的形状。这里总结几个常见的求导形式：前言：最基础最重要的，标量对向量求导和向量对标量求导，有两种方式，分子布局和分母布局，不同的方式都是对的，只是结果缺一个转置 1、矩阵乘以列向量，对列向量求导，形如 $\boldsymbol{z} = \bol 阅读全文

posted @ 2018-12-26 20:13 zhaop 阅读(2466) 评论(0) 推荐(0) 编辑

2018年12月20日

基础概念【softmax|normalizatoin|standardization】

摘要：目录一、softmax 二、normalization 三、standardization 一、softmax 为什么使用softmax,不用normalization? “max” because amplifies probability of largest “soft” because s 阅读全文

posted @ 2018-12-20 15:32 zhaop 阅读(1353) 评论(0) 推荐(0) 编辑

2018年12月7日

【tensorflow】学习笔记

摘要： 1、tensorflow中dynamic_rnn和rnn有什么区别？在tensorflow中没有找到rnn这个方法难道是废弃掉了？ rnn是静态图，比如有10个时间序列，那么它将全部展开，并且存储这十个图， dynamic_rnn是动态的，不会全部存储这些图 dynamic_rnn对于不同的时间步阅读全文

posted @ 2018-12-07 15:46 zhaop 阅读(140) 评论(0) 推荐(0) 编辑

2018年12月1日

dropout含义与原理

摘要：含义在训练过程中，对神经网络单元按照一定比例暂时将其丢弃。原理由于网络参数过多，训练数据少，或者训练次数过多，会产生过拟合的现象。dropout产生的一个重大原因就是为了避免过拟合。每一层的神经元按照不同的概率进行dropout，这样每次训练的网络都不一样，对每一个的batch就相当于训练了阅读全文

posted @ 2018-12-01 15:37 zhaop 阅读(2120) 评论(0) 推荐(0) 编辑

2018年11月25日

最大似然估计与期望最大化（EM）算法

摘要：一、最大似然估计与最大后验概率 1、概率与统计概率与统计是两个不同的概念。概率是指：模型参数已知，X未知，p(x1) ... p(xn) 都是对应的xi的概率统计是指：模型参数未知，X已知，根据观测的现象，求模型的参数 2、似然函数与概率函数似然跟概率是同义词，所以似然也是表示概率，但这个概阅读全文

posted @ 2018-11-25 19:33 zhaop 阅读(2297) 评论(0) 推荐(0) 编辑

2018年11月19日

【自然语言处理】分词方法汇总

摘要：一、关于分词原则：颗粒度越大越好：用于进行语义分析的文本分词，要求分词结果的颗粒度越大，即单词的字数越多，所能表示的含义越确切，如：“公安局长”可以分为“公安局长”、“公安局长”、“公安局长”都算对，但是要用于语义分析，则“公安局长”的分词结果最好切分结果中非词典词越少越好，单字字典词数越阅读全文

posted @ 2018-11-19 15:42 zhaop 阅读(1460) 评论(0) 推荐(0) 编辑

2018年11月1日

【自然语言处理】语言模型

摘要：语言模型语言模型就是估测一些词的序列的概率，即预测 p(w1, w2, w3 ... wn), 一个应用就是句子的生成。 2. 语言模型的种类 Ngram ngram是一种统计的方法，它相当于固定了一个窗口，在这个窗口内的词是相关的，也就是第n个词和前n个词相关：P(s) = p(w1) p(w 阅读全文

posted @ 2018-11-01 11:45 zhaop 阅读(794) 评论(0) 推荐(0) 编辑

2018年10月26日

条件随机场（CRF）

摘要：从宏观上讲，条件随机场就是给出一个序列 X = (x1, x2 ... xn) 得到另一个序列 Y = （y1 , y2 ... yn)。这两个序列有着一些独特的特性，满足马尔可夫随机场，我理解的满足马尔可夫随机就是当前的状态 yi 只与与它相连的状态(即yi-1, yi+1 )和对应的阅读全文

posted @ 2018-10-26 20:36 zhaop 阅读(249) 评论(0) 推荐(0) 编辑

所谓梦想，不是最初的勇不可当，而是永不停息的疯狂

公告