《基 于 N Gram 的无词典 中文分词算法》 n-gram读感

二元的叫bigram,三元的叫trigram。

以bigram来说:

(1) Average(k) > Average(k 一1) &Average(k) > A verage(k + 1) ;
或者
(2 ) A verage(k) > = t, t是词边界 阀值

基 于 N Gram 的无词典 中文分词算法》读来看,每次要选四个字:fre(co ) > fre(D J ) ? fre(JK ) > fre(D J) ?做比较。要根据词典中的频率。fre是frequency for short。


posted @ 2015-11-26 15:50  StevenLuke  阅读(432)  评论(0编辑  收藏  举报