中文分词—基于Lucene的分词器—支持中英文混合词
最近自己动手写了一个中文分词器,没有什么高深的算法,就是基于词库匹配的一个简单程序。
该分词器支持中英文混合词,像“大s” ,“小3” 什么的,只要自己的词库有这个词,他就能分出来。
这个分词原理是正向最大匹配,不过只有简单消除歧义。
个人觉得消除歧义的话,只适合部分句子,有时候消除歧义反而会让有些正常语句分出不好的结果来。
该程序没有做过多消除歧义,个人觉得消除歧义这种方法对于一个通用的分词器作用很大。
如果你的分词器是用来针对某个领域的话,消除歧义不建议使用,如果你了解分词原理并对消除歧义测试结果做过大量测试的话,你会发现这点。(这只代表我个人观点,不喜勿喷)
现在开始介绍下该分词器:
分词原理 : 假如有这么一句话 "你好,我是TomcatTD"
程序接收到这句话后,会从左到右依次读取,遇到标点符号的话截断,出现的每个词都和词库进行比较,如果词库里没有这个词,则取下个字开头的词
例子
你
你好
你好,
,
我
我是
TomcatTD
如果你词库里有 ”你好“,“我是” 这两个词的话
他就会分出来
最后结果是: 你好 , 我是 TomcatTD
如果是“大s的妈妈病了”
只要你在词库里添加 “大s” “妈妈” “病了”
就会分出 “大s 的 妈妈 病了”