基于Solr构建企业搜索引擎
Solr的特性
Apache Solr 是一个开源的搜索服务器,Solr 使用Java 语言开发,主要基于HTTP 和Apache Lucene 实现。定制Solr 索引的实现方法很简单,用POST 方法向Solr 服务器发送一个描述所有Field 及其内容的XML 文档就可以了。定制搜索的时候只需要发送HTTP GET 请求即可,然后对Solr 返回的信息进行重新布局,以产生利于用户理解的页面内容布局。Solr 1.3 版本开始支持从数据库(通过JDBC)、RSS 提要、Web 页面和文件中导入数据,但是不直接支持从二进制文件格式中提取内容,比如MS Office、Adobe PDF 或其他专有格式。
更重要的是,Solr 创建的索引与Lucene 搜索引擎库完全兼容。通过对Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他Lucene 应用程序中的索引。此外,很多Lucene 工具(如Nutch、Luke)也可以使用Solr 创建的索引
Solr的特性包括:
ü 高级的全文搜索功能
ü 专为高通量的网络流量进行的优化
ü 基于开放接口(XML和HTTP)的标准
ü 综合的HTML管理界面
ü 可伸缩性-能够有效地复制到另外一个Solr搜索服务器
ü 使用XML配置达到灵活性和适配性
ü 可扩展的插件体系