Solr 搭建搜索服务器

Solr已经发布3.5版本了,同时它是基于Lucene 3.5的。我们在基于Solr进行二次开发之前,首先要搭建起一个搜索服务器,在熟悉Solr的基本功能的基础上,可以根据实际应用的需要进行个性化定制开发。因为Solr提供了一种插件机制,我们可以根据自己的需要进行定制,然后在Solr的配置文件中(solrconfig.xml)进行配置即可达到预期的要求。在Solr的发行包中给出了一个配置的例子,我们可以直接将其发布到Web容器中,通过浏览器访问来进行测试,具体如何配置,下面根据从易到难的方式,对每种方式进行详细的介绍。

 

准备工作

 

 

  1. 下载Solr 3.5发行包(http://lucene.apache.org/solr,apache-solr-3.5.0-src.tgz和apache-solr-3.5.0.tgz),并解压缩到文件系统中;
  2. 下载Lucene 3.5发行包(http://lucene.apache.org/solr,lucene-3.5.0-src.tgz和lucene-3.5.0.tgz),并解压缩到文件系统中;
  3. 安装配置Web容器,我使用的apache-tomcat-6.0.32。

 

 

第一种方式:基于WAR包搭建

 

这种方式,我们是直接使用Solr发行包给定的WAR包,一般来说通过它快速了解Solr是很有用的,而对于满足实际需要的开发还远远不够。

按照下面的步骤,进行安装、配置、验证:

第1步:复制Solr发行包中配置示范文件(/example/solr文件夹)到tomcat/bin目录,如/home/tomcat/bin。按照solr的要求,需要指定solr-home的路径,如不指定,默认当前运行目录(tomcat/bin),于是本文为了简单,直接把solrconf放到bin目录下

 

另外,如果在solrconfig.xml中没有指定<dataDir>索引目录配置,则默认会生成apache-tomcat-6.0.32\conf\multicore\data\index目录,该目录下面存储索引文件。

 

第2步:将apache-solr-3.5.0\apache-solr-3.5.0\dist下面的apache-solr-3.5.0.war拷贝到apache-tomcat-6.0.32\webapps目录下面;

这个不用过多解释,就是通过使用一个Web归档文件(WAR)来部署一个Web应用,我们的应用就是Solr搜索应用程序。

第3步:新增solr.xml在{$TOMCAT}/conf/Catalina/localhost/下。TOMCAT在启动时将自动加载该CONTEXT。 docBase应设置为solr war包存放位置,例如/home/apache-solor-3.5.0/example/webapp/solr.war 
     solr/home的值应设置为你规划存放的索引根路径,例如/web/solr/。该目录在以下将称为{$SOLR_HOME}

Xml代码  
<Context docBase="/home/apache-solr-3.5.0/example/webapp/solr.war" debug="0" crossContext="true" >   
    <Environment name="solr/home" type="java.lang.String" value="/web/solr" override="true" />  
</Context>    

 

  第4步:设置Solr的字符集;

默认Solr使用了UTF-8字符集编码,如果你的Tomcat不是的话,在执行中文搜索的时候可能会出现乱码。如果你的Tomcat默认8080端口请求字符集就是UTF-8,并且想使用这个默认的端口提供搜索服务,则可以修改apache-tomcat-6.0.32\conf\server.xml文件的内容,如下所示:

 

<Connectorport="8080"protocol="HTTP/1.1"connectionTimeout="20000"URIEncoding="UTF-8"redirectPort="8443"/>

 

 

上面我们增加了一个URIEncoding="UTF-8"的配置。

 

如果想使用一个新的未被占用的端口,则可以在apache-tomcat-6.0.32\conf\server.xml中增加一个配置,例如使用8888端口,配置内容如下所示:

<Connectorport="8888"protocol="HTTP/1.1"connectionTimeout="20000"URIEncoding="UTF-8"redirectPort="8443"/>

第5步:分词安装

中文分词器安装

   中文分词在solr里面是没有默认开启的,需要我们自己配置一个中文分词器。目前可用的分词器有smartcn,IK,jeasy,庖丁。其实主要是两种,一种是基于中科院ICTCLAS的隐式马尔科夫HMM算法的中文分词器,如smartcn,ictclas4j,优点是分词准确度高,缺点是不能使用用户自定义词库;另一种是基于最大匹配的分词器,如IK ,Jeasy,庖丁,优点是可以自定义词库,增加新词,缺点是分出来的垃圾词较多。各有优缺点,看应用场合自己衡量选择吧。

下面给出两种分词器的安装方法,任选其一即可,推荐第一中,因为smartcn就在solr发行包的contrib/analysis-extras/lucene-libs/下,就是lucene-smartcn-3.5.0.jar

5.1 smartcn 分词器的安装

将contrib/analysis-extras/lucene-libs/lucene-smartcn-3.5.0.jar复制到/tomcat/webapps/solr/WEB-INF/lib,

打开/tomcat/bin/solr/conf/scheme.xml,编辑text字段类型如下,添加以下代码到shema中的相应位置,就是找到fieldType定义的那一段,在下面多添加这一段就好啦

 

 

Xml代码  
<fieldType name="text" class="solr.TextField">  
    <analyzer class="org.apahce.lucene.analysis.cn.smart.SmartChineseAnalyzer"/>  
</fieldType>  

 

 

5.2 IK 分词器的安装   IKAnalyer3.2.8 下载

将IKAnalyzer3.2.5发行包解压,复制IKAnalyzer3.2.8Stable.jar到Solr的lib中,如/home/tomcat/webapps/solr/WEB-INF/lib,复制配置文件IKAnalyzer.cfg.xml和ext_stopword.dic到tomcat/bin中,如/home/tomcat/bin。同样,到/tomcat/webapps/solr/WEB-INF/lib,

打开/tomcat/bin/solr/conf/scheme.xml,编辑text字段类型如下,添加到schema中

  

Xml代码  
<fieldType name="text" class="solr.TextField">   
       <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
</fieldType>  

 

 第6步:优化

 

配置solrconfig.xml,用来配置Solr的一些系统属性,比较重要的一个就是可以通过更改其中的dataDir属性来指定索引文件的存放 位置,对于有大数据量的情况下还要进行自动commit操作配置,以下设置为当内存索引量达到20W条时自动进行往磁盘写操作,以免堆溢出,这也是解决单 个入库xml文件最好不要超过30M的有效方法:

 

Xml代码  
<autocommit>  
  <maxdocs>200000</maxdocs>  
</autocommit>  
 

 

第7步:验证

 

Solr在 Tomcat里,所以启动Tomcat即可,建议初期用bootstrap.jar,方便发现配置中的错误,如

进入目录/home/tomcat/bin ,然后敲入 java -jar bootstrap.jar即可运行,不报错的话就可以正常访问了

http://127.0.0.1:8983/solr/

 

    下面再看下分词器有没配置成功

 

http://127.0.0.1:8983/solr/admin/analysis.jsp

 

 

  

Solr  搭建搜索服务器 - 天下 - 全民java

 

 

 

 

输入:  solr中文分词器

 

如果分词的结果显示  solr|中文|分词|器   

 

恭喜你,分词器配置成功,solr环境搭建完成了

 

 


第二种方式:基于jar包搭建

 

这种方式,我们不再使用Solr默认提供,并对我们非常透明的WAR包来搭建,而是根据Solr发行包中的相关内容来搭建,更确切地说,我们把Solr在一个开发工具上搭建起来,暂且不考虑源码层面的内容。我比较习惯使用MyEclipse,我使用了MyEclipse Enterprise Workbench 8.0集成开发环境。

遵循下面的步骤,就可以实现:

 

  1. 创建一个Web Project,工程名称为solr35;
  2. 将apache-solr-3.5.0-src\apache-solr-3.5.0\solr\example\multicore目录,拷贝到工程solr35下面;
  3. 将apache-solr-3.5.0\apache-solr-3.5.0\dist以及solrj-lib目录中jar文件,拷贝到工程solr35\WebRoot\WEB-INF\lib下面;
  4. 将apache-solr-3.5.0-src\apache-solr-3.5.0\solr\lib目录中jar文件,拷贝到工程solr35\WebRoot\WEB-INF\lib下面;
  5. 将lucene-3.5.0\lucene-3.5.0\lucene-core-3.5.0.jar、lucene-3.5.0\lucene-3.5.0\contrib\spatial\lucene-spatial-3.5.0.jar、lucene-3.5.0\lucene-3.5.0\contrib\highlighter\lucene-highlighter-3.5.0.jar这三个文件,拷贝到solr35\WebRoot\WEB-INF\lib下面;
  6. 将apache-solr-3.5.0-src\apache-solr-3.5.0\solr\webapp\web目录,拷贝到solr35\WebRoot,并覆盖原来的全部内容;
  7. 修改solr35\WebRoot\WEB-INF\web.xml文件,增加如下内容:
<env-entry>
    <env-entry-name>solr/home</env-entry-name>
    <env-entry-value>E:\Develop\myeclipse\workspace\solr35\multicore</env-entry-value>
    <env-entry-type>java.lang.String</env-entry-type>
</env-entry>

 


实际上,就是指定了Web容器启动后,Solr加载实例的相关配置和索引数据的目录。

 

另外,这样是直接在web.xml中进行了硬编码配置,如果solr/home变化了,每次都需要修改web.xml文件。还有一种方式是,直接增加Web容器的启动选项来指定,如下所示:

-Dsolr.solr.home=E:\Develop\myeclipse\workspace\solr35\multicore

这样,配置就更加灵活了,非常方便。

 

通过上面的配置,可以启动Tomcat服务器了,并通过访问http://localhost:8080/solr35来进行验证。

 

 

第三种方式:基于源码搭建


 

基于源码搭建的好处的就是,我们在开发过程中可以方便地进行调试跟踪,这样也能够便于更深入地了解Solr框架的执行机制。Solr是基于Lucene这个开源搜索引擎库开发的框架,通过了解Solr的源代码,你可以更深入地熟悉如何在Lucene之上构建适合自己的搜索应用,甚至你完全可以将Solr改造成自己需要的应用程序。一般来说,我们使用Solr搭建搜索服务器的适合,完全可以不需要熟悉Lucene是怎么样实现索引和全文检索的,但是在Solr上进行开发调试,如调试搜索的相关度时,就需要对Lucene有一定的了解,才能在调优的过程中事半功倍。

基于源码的搭建,我采用了一种Lucene和Solr的源代码都可以进行修改,即将Lucene和Solr的代码导入的开发环境中。具体如何导入,因为代码都是开源的,你可以使用任何方法实现,不再累述。这里,我们简单说一下,我将solr和Lucene分别导入到了两个工程中:Lucene Java Project、Solr Web Project。我把工程的.classpath文件粘贴一下,以供参考:

Lucene Java Project的.classpath文件内容如下:

<?xml version="1.0" encoding="UTF-8"?>
<classpath>
  <classpathentrykind="src"path="src/lucene/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/analyzers/common/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/analyzers/common/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/analyzers/smartcn/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/analyzers/smartcn/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/analyzers/stempel/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/analyzers/stempel/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/benchmark/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/benchmark/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/demo/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/demo/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/facet/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/facet/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/facet/src/examples"/>
  <classpathentrykind="src"path="src/lucene/contrib/grouping/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/grouping/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/highlighter/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/highlighter/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/icu/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/icu/src/tools/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/icu/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/instantiated/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/instantiated/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/join/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/join/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/memory/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/memory/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/misc/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/misc/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/queries/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/queries/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/queryparser/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/queryparser/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/remote/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/remote/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/spatial/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/spatial/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/spellchecker/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/spellchecker/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/xml-query-parser/src/java"/>
  <classpathentrykind="src"path="src/lucene/contrib/xml-query-parser/src/test"/>
  <classpathentrykind="src"path="src/lucene/contrib/xml-query-parser/src/demo/java"/>
  <classpathentrykind="src"path="src/lucene/test-framework/src/java"/>
  <classpathentrykind="con"path="org.eclipse.jdt.launching.JRE_CONTAINER/org.eclipse.jdt.internal.debug.ui.launcher.StandardVMType/JavaSE-1.6"/>
  <classpathentrykind="con"path="org.eclipse.jdt.USER_LIBRARY/Contributions Dependences"/>
  <classpathentrykind="con"path="org.eclipse.jdt.USER_LIBRARY/Lucene Contrib Dependences"/>
  <classpathentrykind="con"path="org.eclipse.jdt.USER_LIBRARY/JUnit 4.7"/>
  <classpathentrykind="output"path="bin"/>
</classpath>

Solr Web Project的.classpath文件内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<classpath>
  <classpathentrykind="src"path="src/solr/solrj/src/java"/>
  <classpathentrykind="src"path="src/solr/solrj/src/test"/>
  <classpathentrykind="src"path="src/solr/core/src/java"/>
  <classpathentrykind="src"path="src/solr/core/src/test"/>
  <classpathentrykind="src"path="src/solr/contrib/analysis-extras/src/java"/>
  <classpathentrykind="src"path="src/solr/contrib/analysis-extras/src/test"/>
  <classpathentrykind="src"path="src/solr/contrib/clustering/src/java"/>
  <classpathentrykind="src"path="src/solr/contrib/clustering/src/test"/>
  <classpathentrykind="src"path="src/solr/contrib/dataimporthandler/src/java"/>
  <classpathentrykind="src"path="src/solr/contrib/dataimporthandler/src/test"/>
  <classpathentrykind="src"path="src/solr/contrib/dataimporthandler-extras/src/java"/>
  <classpathentrykind="src"path="src/solr/contrib/dataimporthandler-extras/src/test"/>
  <classpathentrykind="src"path="src/solr/contrib/extraction/src/java"/>
  <classpathentrykind="src"path="src/solr/contrib/extraction/src/test"/>
  <classpathentrykind="src"path="src/solr/contrib/langid/src/java"/>
  <classpathentrykind="src"path="src/solr/contrib/langid/src/test"/>
  <classpathentrykind="src"path="src/solr/contrib/uima/src/java"/>
  <classpathentrykind="src"path="src/solr/contrib/uima/src/test"/>
  <classpathentrykind="src"path="src/solr/contrib/velocity/src/java"/>
  <classpathentrykind="src"path="src/solr/contrib/velocity/src/test"/>
  <classpathentrykind="src"path="src/solr/test-framework/src/java"/>
  <classpathentrykind="con"path="org.eclipse.jdt.launching.JRE_CONTAINER"/>
  <classpathentrykind="con"path="melibrary.com.genuitec.eclipse.j2eedt.core.MYECLIPSE_JAVAEE_5_CONTAINER"/>
  <classpathentrykind="con"path="org.eclipse.jdt.USER_LIBRARY/Solr Contrib Dependences"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/apache-solr-noggit-r1099557.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/commons-codec-1.5.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/commons-csv-1.0-SNAPSHOT-r966014.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/commons-fileupload-1.2.1.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/commons-httpclient-3.1.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/commons-io-1.4.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/commons-lang-2.4.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/easymock-2.2.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/geronimo-stax-api_1.0_spec-1.0.1.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/guava-r05.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/jcl-over-slf4j-1.6.1.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/junit-4.7.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/log4j-over-slf4j-1.6.1.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/servlet-api-2.4.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/slf4j-api-1.6.1.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/slf4j-jdk14-1.6.1.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/wstx-asl-3.2.7.jar"/>
  <classpathentrycombineaccessrules="false"kind="src"path="/lucene35"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/core-3.1.1.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/jetty-6.1.26-patched-JETTY-1340.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/jetty-util-6.1.26-patched-JETTY-1340.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/jsp-2.1-glassfish-2.1.v20091210.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/jsp-2.1-jetty-6.1.26.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/jsp-api-2.1-glassfish-2.1.v20091210.jar"/>
  <classpathentrykind="lib"path="WebRoot/WEB-INF/lib/servlet-api-2.5-20081211.jar"/>
  <classpathentrykind="output"path="WebRoot/WEB-INF/classes"/>
</classpath>

 

 
搭建起来开发环境,你可以更加深入的学习Solr了。

 

转自:http://blog.csdn.net/shirdrn/article/details/7050075

 
posted @ 2012-07-20 15:00  weep  阅读(1123)  评论(0编辑  收藏  举报