SOLR同义词中文问题

现象:

在synonyms.txt输入中文同义词后,Tomcat启动报错,不能读取文件。

原因:

使用SOLR加入中文同义词需要把synonyms.txt的默认编码改成与自己系统使用的编码一致。
比如说:你整个系统的编码都是用UTF-8,那么你就要把synonyms.txt这个文件的编码格式转换成UTF-8。原因是,对某个词进行同义的时候找到的词是乱码,而乱码在对于的索引中是没有存在的。这也就导致了中文不可以使用的原因。

解决:

在eclipse里把synonyms.txt文件编码格式转成UTF-8(系统默认UTF-8),然后再输入中文同义词,保存,重启tomcat,问题解决。


总结:

SOLR中文分词无法使用,核心问题是-没有统一编码,导致乱码问题。

posted @ 2011-11-14 11:03  爱开卷360  阅读(2948)  评论(0编辑  收藏  举报