摘要: 首先介绍一下这个分词软件的总体思路。 查阅了网上的一些相关资料,普遍采用的都是“正向最大匹配算法”和“逆向最大匹配算法”,不了解的朋友先来这里看下两个算法的基本思想: 正向最大匹配算法基本思想是:首先在词库里查找文本是否存在,如果存在,直接提取出来,而如果不存在,则删除文本的最后一个字,检查是否是单字,若是输出此字并将短语减去此字,若不是则继续判断看字库是否存在这个词,如此反复循环,直到输出一个词,这样就可以将一个短语分成词语的组合了。 而逆向最大匹配算法自然是相反的,如果发现待分词文本在词典中不存在,那么删除文本的第一个字,进行再次匹配操作。 实验证明:正向最大匹配对歧义识别比较差,分词的. 阅读全文
posted @ 2011-06-01 10:29 RockyXiang 阅读(3113) 评论(27) 推荐(9) 编辑