摘要: 和前一篇介绍的最大概率分词比较,2-gram分词也是一种最大概率分词,只不过在计算一个词概率的时候,它不光考虑自己,还会考虑它的前驱。 我们需要两个字典。第一个字典记录词\(w_i\)出现的频次,第二个字典记录词对儿<\(w_j,w_i\)>共同出现的频次。有这两份字典,我们就可以计算出条件概率\( 阅读全文
posted @ 2016-11-13 17:47 HOLD 阅读(4140) 评论(0) 推荐(0) 编辑
摘要: 这里介绍一种分词的方法--最大概率分词,也叫1-gram分词,因为它不考虑上下文关系,只考虑当前词的概率。 我们需要有一个词典,里面记录每个词的频次,比如: 基于这个词典,我们可以将一句话用一个有向无环图(DAG)的表示出来,比如 这个图里面,每个节点是一个字,边为两点构成词的概率。分词的问题,就是 阅读全文
posted @ 2016-11-13 15:30 HOLD 阅读(1751) 评论(0) 推荐(0) 编辑