SOLR同义词中文问题
现象:
在synonyms.txt输入中文同义词后,Tomcat启动报错,不能读取文件。
原因:
使用SOLR加入中文同义词需要把synonyms.txt的默认编码改成与自己系统使用的编码一致。
比如说:你整个系统的编码都是用UTF-8,那么你就要把synonyms.txt这个文件的编码格式转换成UTF-8。原因是,对某个词进行同义的时候找到的词是乱码,而乱码在对于的索引中是没有存在的。这也就导致了中文不可以使用的原因。
解决:
在eclipse里把synonyms.txt文件编码格式转成UTF-8(系统默认UTF-8),然后再输入中文同义词,保存,重启tomcat,问题解决。
总结:
SOLR中文分词无法使用,核心问题是-没有统一编码,导致乱码问题。