利用SOLR搭建企业搜索平台 之十(数据库数据导入到solr)

solr不可谓是个好东西啊,越往下挖掘,他的各种功能逐渐的展现在我的面前,对于solr的架构人员,不得不令人佩服啊。

几天前偶尔看到IBM developmentWorks上面的一片文章,看到了数据库数据的导入,以前我一直是这么认为的,像这种导入可以自己去写程序去导入。

写程序 可以将数据读出100条,如果你的内存够大,可以是1000条甚至更多,然后放入Collection中,批量提交至solr。或者读取数据写入xml文件中,再将该文件提交到solr等等。但是,在我看到那一篇文章的时候,原来还有这么巧妙的招。

废话不多说,入正题。

一.首先准备好solr的dataimport功能需要的东西,在solr的下载包中。分别在:
1》Solr-1.3.0\dist\apache-solr-dataimporthandler-1.3.0.jar
2》E:\education\search\Solr-1.3.0\example\example-DIH\solr\
3》你是哪种数据库,提供该数据库的jdbc驱动。

二.如果你还不会运行solr,请参考本人的前几篇博客。这里要做的是,先把E:\education\search\Solr-1.3.0 \example\example-DIH\solr\下面的东西拷贝到solr的HOME目录,然后删除rss,这个是另外一个功能是导入rss订阅信 息到solr中,确实很强,这都想到了。将jar文件,实际就两个拷贝到tomcat的webapps下面的solr的WEB-INF的lib文件夹下 面。

三.更改solr Home目录下的conf/solrconfig.xml,其实就是提交一个solrRequestHandler,代码如下:
Xml代码
  1. <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">  
  2.     <lst name="defaults">  
  3.       <str name="config">C:\solr-tomcat\solr\db\conf\db-data-config.xml</str>  
  4.     </lst>  
  5.   </requestHandler>  


四.将solr Home目录下面的solrconfig.xml和schema.xml拷贝到db文件夹下面的conf中。
五.修改db\conf\db-data-config.xml
Xml代码
  1. <dataConfig>  
  2.         <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost:3306/tuitui" user="root" password="mysql"/>  
  3.     <document name="shop">  
  4.             <entity name="tuitui_shop" pk="shopId" query="select * from tuitui_shop">  
  5.             <field column="shopid" name="shopId" />  
  6.             <field column="shopName" name="shopName" />  
  7.             <field column="shopUrl" name="shopUrl" />  
  8.             <field column="keyword" name="keyword" />  
  9.             <field column="synopsis" name="synopsis" />  
  10.             <field column="province" name="province" />  
  11.             <field column="city" name="city" />  
  12.             <field column="domain" name="domain" />  
  13.             <field column="address" name="address" />  
  14.             <field column="coordinate" name="coordinate" />  
  15.             <field column="shopSspn" name="shopSspn" />  
  16.             <field column="phone" name="phone" />  
  17.             <field column="createTime" name="createTime" />  
  18.         </entity>  
  19.     </document>  
  20. </dataConfig>  


其中的意思我做简单解释,具体大家可以去看看官方wiki。
document:一个文档也就是lucene的document这个没什么解释的;
entity:主要针对的是一个数据库表;
filed:属性column是数据库的字段,name是filed的名字,即schema中的field name
http://wiki.apache.org/solr/DataImportHandler
我的数据库表结构发出来:


六.启动TOMCAT,输入地址进行导入,导入分为很多模式:我选用的全部倒入模式。

http://localhost/solr/dataimport?command=full-import
结果:
00C:\solr-tomcat\solr\db\conf\db-data-config.xmlfull-importidle1202009-09-05 21:28:08Indexing completed. Added/Updated: 2 documents. Deleted 0 documents.2009-09-05 21:28:092009-09-05 21:28:090:0:0.579This response format is experimental. It is likely to change in the future.

七.在去查询你刚才提交的数据,搞定。

最后在说说这个功能。上面的例子只不过是很简单的一个部分。针对solr的MultiCore,通过配置db-data-config.xml也可以实现,还有多表,或者多表关联等等操作只要在db-data-config.xml配置清楚都可以进行数据的导入。
在solr1.4中还有更多的扩展功能,这些功能为重建索引提供能很方便的操作。而且,datasource不单单指的是database,可以是xml文件,还可以是来自网络上的等等。
posted @ 2009-09-16 11:55  searchDM  阅读(1024)  评论(0编辑  收藏  举报