《基 于 N Gram 的无词典 中文分词算法》 n-gram读感
二元的叫bigram,三元的叫trigram。
以bigram来说:
(1) Average(k) > Average(k 一1) &Average(k) > A verage(k + 1) ;
或者
(2 ) A verage(k) > = t, t是词边界 阀值
《基 于 N Gram 的无词典 中文分词算法》读来看,每次要选四个字:fre(co ) > fre(D J ) ? fre(JK ) > fre(D J) ?做比较。要根据词典中的频率。fre是frequency
for short。