solr中文分词
1.简介
Solr是一个高性能,采用Java5开发,Solr基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。因为中文的特殊性,在对中文文档建立全文索引时,需要利用分词工具进行分词。
目前比较知名的分词工具有:
IK,庖丁等
2.下载
solr链接:https://pan.baidu.com/s/1iitpaYgBVpXQSUABtkCm5Q
提取码:tuuo
3.安装
解压文件。
进入bin 启动solr
./solr start -p 8984
可以在ip:8984端口上查看solr情况
关闭solr
./solr stop -all
4.中文分词配置
copy ik-analyzer-solr5-5.x.jar to server/solr-webapp/webapp/WEB-INF/lib
ik-analyzer-solr5-5.x.jar 下载地址:链接:https://pan.baidu.com/s/1MlzginuetwyONGQ5KbtnOg
提取码:7g7z
/usr/local/solr/solr-5.4.0/server/solr-webapp/webapp/WEB-INF/lib
修改schema.xml
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" />
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" />
</analyzer>
</fieldType>
<field name="docContent" type="text_ik" indexed="true" stored="true" multiValued="true"/>
<field name="docType" type="text_ik" indexed="true" stored="true" multiValued="true"/>
<field name="docName" type="text_ik" indexed="true" stored="true" multiValued="true"/>
重启solr
检测:
进入solr管理页面-->analysis 查看分词结果