修改Imdict做的一个简单分词器
最近想到给分词加点扩展,于是将以前的代码找出来写了一个分词器
这个分词器可以对现在将代码贴出来:
(1)搜索词进行扩展(这个需要依赖一个近义词词库,但网上找了好久,没有适合的,只有小学生的成语近义词)
(2)找出地址(类似的也可以找出 人名, 歌名。。。,这个也需要一个词库)
(3) 将搜索结果变为汉语拼音 (这个依赖了pingyin4j)
该分词器以 词典为主, 如果你词典里有你需要的词,那么他就可以分出来,
测试结果:
例句:分词爱琪美我该分词器以 词典为主, 如果你词典里有你需要的词,那么他就可以分出来 北京海淀火锅
普通分开:分词 爱琪美 我 该 分词 器 以 词典 为主 如果 你 词典 里 有你 需要 的 词 那么 他 就可以 分出 来 北京 海淀 火锅
12
加扩展:分词 academie or 爱琪美 我 该 分词 器 以 词典 为主 如果 你 词典 里 有你 需要 的 词 那么 他 就可以 分出 来 北京 海淀 火锅
139
挑出地址:key:分词 爱琪美 我 该 器 以 词典 为主 如果 你 里 有你 需要 的 词 那么 他 就可以 分出 来 火锅 address:北京 海淀
147
现在将源码贴出来,希望有缘的人可以对该代码进行优化,让他的速度得到一个高的提升 词库得到扩展
下载地址: