Alex He

...永远保持希望与激情...约会未来更强大的自己...

 

2011年5月10日

MMSEG介绍及基于分类的中文分词算法遐想

摘要: MMSEG介绍及基于分类的中文分词算法遐想 最近一直在弄中文分词,学习了不少分词算法,当然其中少不了中科院的分词工具。但我测试后发现,基于多层HMM的ICTCLAS虽然准确率虽很好,但效率方面还是没什么优势。可是效率问题在大规模数据应用中确实是很重要的。这里要介绍的,也是如今被广泛应用的,也是教材中介绍较多的方法,那就是基于最大匹配的方法,这里面又可分为前向最大匹配,后向最大匹配和混合式的。但不管怎么样,它就是按照待分词字符串某个方向上取尽可能长的词作为一个词块。这里,我们都看出来了,这种算法要用到词典,并且很重要。(网上一个分析百度的分词算法的文章的结论是百度采取前向最大匹配,并且百度拥有强 阅读全文

posted @ 2011-05-10 18:19 Alex木头 阅读(4135) 评论(0) 推荐(0) 编辑

导航