修改Imdict做的一个简单分词器

最近想到给分词加点扩展,于是将以前的代码找出来写了一个分词器

这个分词器可以对现在将代码贴出来:

(1)搜索词进行扩展(这个需要依赖一个近义词词库,但网上找了好久,没有适合的,只有小学生的成语近义词)

(2)找出地址(类似的也可以找出 人名, 歌名。。。,这个也需要一个词库)

(3) 将搜索结果变为汉语拼音 (这个依赖了pingyin4j)

 该分词器以 词典为主, 如果你词典里有你需要的词,那么他就可以分出来,

 测试结果:

例句:分词爱琪美我该分词器以 词典为主, 如果你词典里有你需要的词,那么他就可以分出来 北京海淀火锅

普通分开:分词 爱琪美 我 该 分词 器 以 词典 为主 如果 你 词典 里 有你 需要 的 词 那么 他 就可以 分出 来 北京 海淀 火锅
12

加扩展:分词 academie or 爱琪美 我 该 分词 器 以 词典 为主 如果 你 词典 里 有你 需要 的 词 那么 他 就可以 分出 来 北京 海淀 火锅
139

挑出地址:key:分词 爱琪美 我 该 器 以 词典 为主 如果 你 里 有你 需要 的 词 那么 他 就可以 分出 来 火锅  address:北京 海淀
147

现在将源码贴出来,希望有缘的人可以对该代码进行优化,让他的速度得到一个高的提升 词库得到扩展

下载地址:

 

 

 

posted @ 2013-01-25 11:25  杨桃  阅读(271)  评论(0编辑  收藏  举报