摘要:
这篇文章是论文‘Chinese Poetry Generation with Recurrent Neural Network’的阅读笔记,这篇论文2014年发表在EMNLP。 ABSTRACT 这篇论文提出了一个基于RNN的中国古诗生成模型。 PROPOSED METHOD 第一句的生成 第一句的 阅读全文
摘要:
本篇是论文Wide & Deep Learning for Recommender Systems的阅读笔记,这是谷歌的一篇发表在2016的论文。 ABSTRACT 对于解决regression和classification问题,有两类方法,一种是wide的一种是deep的。wide,通常是line 阅读全文
摘要:
这篇文章是论文"NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE"的阅读笔记,这是2015年发表在ICLR的一篇文章。 ABSTRACT NMT(neural machine translation)是个很多人 阅读全文
摘要:
1,SVM算法的思考出发点 SVM算法是一种经典的分类方法。对于线性可分问题,找到那个分界面就万事大吉了。这个分界面可以有很多,怎么找呢?SVM是要找到最近点距离最远的那个分界面。有点绕,看下面的图就明白了 为了推导简单,我们先假设样本集是完全线性可分的,也就一个分界面能达到100%的正确率。 2, 阅读全文
摘要:
解决一个机器学习问题的一般套路是先构建一个目标函数,然后解决一个优化问题。目标函数通常由损失函数和正则项组成。常见的损失函数log-loss,square-loss,cross-entropy-loss等,常见的正则化方法有L1正则、L2正则等,常见的优化方法有梯度下降、随机梯度下降等。SVM也可以 阅读全文
摘要:
和前一篇介绍的最大概率分词比较,2-gram分词也是一种最大概率分词,只不过在计算一个词概率的时候,它不光考虑自己,还会考虑它的前驱。 我们需要两个字典。第一个字典记录词\(w_i\)出现的频次,第二个字典记录词对儿<\(w_j,w_i\)>共同出现的频次。有这两份字典,我们就可以计算出条件概率\( 阅读全文
摘要:
这里介绍一种分词的方法--最大概率分词,也叫1-gram分词,因为它不考虑上下文关系,只考虑当前词的概率。 我们需要有一个词典,里面记录每个词的频次,比如: 基于这个词典,我们可以将一句话用一个有向无环图(DAG)的表示出来,比如 这个图里面,每个节点是一个字,边为两点构成词的概率。分词的问题,就是 阅读全文
摘要:
EM算法用于含有隐含变量的概率模型参数的极大似然估计。什么是隐含变量的概率模型呢?举个例子,假设有3枚硬币,分别记为A,B,C,它们正面出现的概率分别为r,p,q。每次实验先掷硬币A,如果出现的是正面就投B,如果出现的反面就投C,出现正面记为1,出现反面记为0。独立10次实验,观测结果如下:1101 阅读全文
摘要:
这篇文章记录一下解决HMM三大问题的第二个问题的学习过程。回忆一下,第二个问题是什么来着?给定HMM模型\(lambda\)和观测序列O,求产生这个观测序列概率最大的状态序列是什么?把这个问题叫做解码问题,也是挺贴切的~ 求解这个问题,有一个经典的算法,叫做Viterbi算法。Viterbi是个了不 阅读全文
摘要:
学习HMM的一些简单总结,具体的内容和推导可以去参考《条件随机场理论综述》,写的非常好。 1,离散马尔科夫过程 时间和状态都是离散变量,且当前所处的状态只与它之前的一个状态有关(马尔科夫性),这种随机过程即为马尔科夫过程。 2,HMM的五个要素 HMM可以用一个五元组表示:\(\lambda= (S 阅读全文