elasticsearch中国字(mmseg)——手动添加字典

elasticsearch中国文字本身并不是一个理想的插件效果。手动添加字典可以补偿在一定程度上。

后发现了几个实验,mmseg分段机制采用正向最长匹配算法。例如,抵抗“小时报”这个单词,其内置的字典中不包括字,因此,当用户搜索小的时间时。果。

在咸鱼老婆的虚心指导下,我最终找到了解决的方法。

手动加入该词到mmseg的词库中,有两种方法:

1、将该词增加到自带的某个词典中(非停顿词词典)。如words-my.dic。

2、新建一个自己定义词典,将其放入默认词库目录下。注意编码格式为以UTF-8无BOM格式编码。

(注意:假设将elasticsearch部署在集群时,对应的配置文件词典均需改动)

期间,咸鱼老婆一直对我循循善诱的指导,令我茅塞顿开。

同一时候,还不厌其烦的为我拨开我最爱的小桂圆,令我甚是感动。

相信若干年后。回味起解决手动加入词库问题的今晚,仍然会感到一股暖流涌上心头。

重新启动elasticsearch服务:elasticsearch restart

针对目标文件,又一次建立索引,搜索“小时代”,就可以查询到目标文件。

最后。再次感谢我亲爱的咸鱼老婆。撒狼黑色的!!

版权声明:本文博主原创文章,博客,未经同意不得转载。

posted @ 2015-10-24 18:02  mfrbuaa  阅读(626)  评论(0编辑  收藏  举报