Solr

 

 Solr是什么

Solr是一个基于全文检索的企业级应用服务器

全文检索:可以输入一段文字,通过分词检索数据!!

应用服务器:它是单独的服务。

Solr能做什么

它就是用于做全文搜索

 为什么需要Solr

    问题:我们已经有Lucene,为什么还要学习solr?

 

答:Lucene是一个工具包,不能单独运行,需要导入到java代码中。

 

Solr可以独立运行tomcat容器中,通过http协议,以接口的方式对外提供服务,java代码只需要专注于业务的处理就可以。

 

Solr下载路径

http://archive.apache.org/dist/lucene/solr/

solr是基于lucene实现的,和Lucene同步更新。

Solr目录结构说明

 

 

 

binsolr的运行脚本

contribsolr的一些扩展jar包,用于增强solr的功能。

dist:该目录包含build过程中产生的warjar文件,以及相关的依赖文件。

docssolrAPI文档

examplesolr工程的例子目录:

licensessolr相关的一些许可信息

 

 

入门示例

需求

使用Solr实现电商网站的商品搜索功能。

 配置步骤说明

1)配置Solr服务器。

2)配置SolrHome。(Solr服务的主目录,磁盘)

3)在Solr服务器中加载SolrHome

4java程序访问Solr服务器,实现全文搜索。

 

 配置步骤

 第一部分配置Solr服务器

--说明:Solr可以独立运行,需要servlet容器加载它。本文使用tomcat

 

 第一步:解压一个Tomcat

解压一个新的Tomcat,专门用来加载Solr

 

 

第二步:部署Solr服务到Tomcat

--Solr的下载包中,提供了Solrwar包程序。(空的war包程序)

 

 

 

 

 

第二步创建索引

--步骤说明。(复习回顾)

1)采集数据。

2)将数据转换成Solr文档。

3)连接solr服务器,将文档写入索引库。

 Step1:采集数据

--需求采集的字段说明:

参与搜索的字段:名称、价格、商品类别、描述信息

参与结果展示的字段:商品id、图片、

 

1)创建Product

 

public class Product {

    private Integer pid;
    
    private String name;
    
    private String catalog_name;
    
    private double price;
    
    private String description;
    
    private String picture;
    
// 补全get、set方法
}

2)创建ProductDao

 

/**
     * 采集数据
     * @return
     */
    public List<Product> gathData(){
        
        List<Product> products = new ArrayList<>();
        
        try {
            
            //1、加载驱动
            Class.forName("com.mysql.jdbc.Driver");
            //2、获取Connection连接
            connection = DriverManager.getConnection("jdbc:mysql://localhost:3306/solr", "root", "gzsxt");
            //3、获取PreparedStatement,执行预编译
            pst = connection.prepareStatement("select pid,name, catalog_name,price,description,picture from products");
            //4、执行sql搜索
            rs = pst.executeQuery();
            
            Product p = null;
            while(rs.next()){
                p = new Product();
                p.setPid(rs.getInt("pid"));
                p.setName(rs.getString("name"));
                p.setPrice(rs.getFloat("price"));
                p.setPicture(rs.getString("picture"));
                p.setDescription(rs.getString("description"));                  
                p.setCatalogName(rs.getString("catalog_name"));
                
                products.add(p);
            }
            
            
        } catch (Exception e) {
            e.printStackTrace();
        }finally {
            if(null!=rs){
                try {
                    rs.close();
                } catch (SQLException e) {
                    // TODO Auto-generated catch block
                    e.printStackTrace();
                }
            }
            if(null!=pst){
                try {
                    pst.close();
                } catch (SQLException e) {
                    // TODO Auto-generated catch block
                    e.printStackTrace();
                }
            }
            if(null!=connection){
                try {
                    connection.close();
                } catch (SQLException e) {
                    // TODO Auto-generated catch block
                    e.printStackTrace();
                }
            }
        }

        
        return products;
    }
    

 

3)创建一个测试类ProductDaoTest

 

public class ProductDaoTest {

    @Test
    public void getAllProducts(){
        ProductDao dao = new ProductDao();
        System.out.println(dao.getAllProducts());
    }
}

 

 

 

 

 

 Step2:将数据转换成Solr文档SolrInputDocument

--说明:solr是通过SolrInputDocument来封装数据的。部分源码如下:

 

public SolrInputDocument(Map fields){

        _documentBoost = 1.0F;

        _fields = fields;

}

 

public void addField(String name, Object value){

        addField(name, value, 1.0F);

}

 

 

问题:我们在Lucene中知道,域有三大属性,在创建文档的时候指定。而Solr的源码中,只是用一个Map集合来封装域的信息。那域的三大属性怎么定义呢?

答:Solr是通过一个配置文件schema.xml,事先定义域的信息的。

 

 

 Solr域的说明

--通过<field>标签定义域的名称等信息

 

 Solr域的特点

1)、Solr的域必须先定义,后使用。(否则报错:unknown fieldName

2)、定义solr域的时候,必须指定是否索引、是否存储这两个属性。<field>

3)、定义solr域的时候,必须指定域的类型<fieldType>

  因为域的类型确定了这个域在索引、搜索两个阶段的分词属性。

 

<field>标签: 来指定索引、存储两个属性

 

<fieldType>标签:来指定分词属性

 

4)、每一个文档中,必须包含id这个域它的值标记文档的唯一性。

 

 

 

配置Solr业务域

--商品各字段属性说明

Tokened

Indexed

Stored

商品的id

N

Y

Y

商品的名称

Y

Y

Y

商品的类别

N

Y

Y

商品的价格

Y

Y

Y

商品的图片

N

N

Y

商品描述信息

Y

Y

N

 

--修改schema.xml,添加如下配置。(id域不用配置,直接使用solrid域)

<!--product-->

<field name="id" type="string" indexed="true" stored="true" required="true"

multiValued="false" />

<field name="product_name" type="text_general" indexed="true" stored="true"/>

<field name="product_catalog_name" type="string" indexed="true" stored="true" />

<field name="product_price"  type="double" indexed="true" stored="true"/>

<field name="product_description" type="text_general" indexed="true" stored="false" />

<field name="product_picture" type="string" indexed="false" stored="true" />

 修改ProductDao,新增getDocuments方法

 

 /**
     * 将采集的数据,转换成文档类型
     * @param products
     * @return
     */
    public List<SolrInputDocument> getDocuments(List<Product> products){
        List<SolrInputDocument> si = new ArrayList<>();

        SolrInputDocument doc = null;
        for (Product product : products){
            //文档是由域组成的。域对应数据库表的字段
            doc = new SolrInputDocument();
            doc.addField("id", product.getPid());
            doc.addField("product_name", product.getName());
            doc.addField("product_catalog_name", product.getCatalogName());
            doc.addField("product_price", product.getPrice());
            doc.addField("product_description", product.getDescription());
            doc.addField("product_picture", product.getPicture());
            si.add(doc);
        }

        return si;
    }

 

 

Step3:连接Solr服务器,创建索引

--前提:已经启动了Tomcat,加载了Solr服务器。(前面给过schema.xml,需要重写启动Tomcat

 

--修改ProductDaoTest类,新增createIndex方法

 

/**
     * 将采集的数据,转换成文档类型
     * @param products
     * @return
     */
    public List<SolrInputDocument> getDocuments(List<Product> products){
        List<SolrInputDocument> si = new ArrayList<>();

        SolrInputDocument doc = null;
        for (Product product : products){
            //文档是由域组成的。域对应数据库表的字段
            doc = new SolrInputDocument();
            doc.addField("id", product.getPid());
            doc.addField("product_name", product.getName());
            doc.addField("product_catalog_name", product.getCatalogName());
            doc.addField("product_price", product.getPrice());
            doc.addField("product_description", product.getDescription());
            doc.addField("product_picture", product.getPicture());
            si.add(doc);
        }

        return si;
    }

 

 第三步:搜索索引

--修改ProductDaoTest类型,新增一个查询方法

 

@Test
    public void queryIndex() throws Exception {
        // 创建HttpSolrServer对象,通过它和Solr服务器建立连接。
        // 参数:solr服务器的访问地址
        HttpSolrServer server = new HttpSolrServer("http://localhost:8080/solr/solrCore0719");

        // 创建SolrQuery对象
        SolrQuery query = new SolrQuery();
        // 设置查询条件,参考主界面
        query.set("q", "*:*");

        // 调用server的查询方法,查询索引库
        QueryResponse response = server.query(query);

        // 查询结果
        SolrDocumentList results = response.getResults();

        // 查询结果总数
        long cnt = results.getNumFound();
        System.out.println("查询结果总数:" + cnt);

        System.out.println("--------------------分隔符-------------------");
        
        for (SolrDocument solrDocument : results) {
            System.out.println("商品id:"+solrDocument.get("id"));
            System.out.println("商品名称:"+solrDocument.get("product_name"));
            System.out.println("商品价格:"+solrDocument.get("product_price"));        
            System.out.println("商品类别:"+solrDocument.get("product_catalog_name"));
            System.out.println("商品图片:"+solrDocument.get("product_picture"));
            
            System.out.println("----------------------------------------");
        }
    }

 

 

 

 solr管理控制台

 查询界面说明

对照界面,实现复杂查询

--修改ProductDaoTest类型,新增动态查询方法

 

@Test
    public void queryDynamic(){
        //1、连接solr服务器
        HttpSolrServer server = new HttpSolrServer("http://localhost:8080/solr/solrCore0719");
        
        //2、创建查询对象,封装查询条件
        SolrQuery query = new SolrQuery();
        //设置默认搜索的域
        query.set("df", "product_name");
        
        //参考管理界面中的 "q"标签,封装查询的关键词
        query.set("q", "音乐盒");
        
        //添加价格过滤
        query.addFilterQuery(“fq”,"product_price:[10 TO 50]");
        //添加类别过滤
        query.addFilterQuery("product_catalog_name:幽默杂货");
        
        //设置排序  价格升序
        query.set("sort","product_price asc");
        
        
        //设置分页信息  第二页 每页10条   start=(page-1)*pageSize
        query.set("start", 10);
        query.set("rows",10);
        
        //设置要查询字段
        query.set("fl", "id,product_name,product_price");
        
        //3、执行查询
        try {
            QueryResponse response = server.query(query);
            
            //获取查询的响应码
            int status = response.getStatus();
            System.out.println("响应码:"+status);
            
            if(0==status){
                SolrDocumentList solrDocumentList = response.getResults();
                
                long numFound = solrDocumentList.getNumFound();
                System.out.println("共查询到"+numFound+"条满足条件的数据!");
                System.out.println("--------------");
                for (SolrDocument s : solrDocumentList) {
                    System.out.println("商品的id:"+s.get("id"));
                    System.out.println("商品的名称:"+s.get("product_name"));
                    System.out.println("商品的价格:"+s.get("product_price"));
                    System.out.println("商品的图片:"+s.get("product_picture"));
                    System.out.println("商品的类别名称:"+s.get("product_catalog_name"));
                    System.out.println("商品的描述:"+s.get("product_decsription"));
                    System.out.println("-----------分隔符---------------");
                }
                
            }
            
        } catch (SolrServerException e) {
            
            e.printStackTrace();
        }
    }

 

 安装DataImport插件

 Dataimport插件说明

--好处:可以在管理界面直接从数据库导入数据到索引库。(即:一个插件解决入门示例中,创建索引的全部操作)

 

3)、在solrconfig.xml文件中,加载这两个jar依赖

<lib dir="F:/depJar/contrib/dataimporthandler/lib/" regex=".*\.jar" />

<lib dir="F:/depJar/contrib/db/lib/" regex=".*\.jar" />

 

 第二步:配置数据库表solr的映射关系

--solr实例的conf目录下,配置数据库映射文件data-config.xml

<?xml version="1.0" encoding="UTF-8" ?>  

<dataConfig>   

<dataSource type="JdbcDataSource"   

  driver="com.mysql.jdbc.Driver"   

  url="jdbc:mysql://localhost:3306/solr"   

  user="root"   

  password="gzsxt"/>   

<document>   

<entity name="product" query="SELECT pid,name,catalog,catalog_name,price,description,picture FROM products ">

 <field column="pid" name="id"/>

 <field column="name" name="product_name"/>

 <field column="catalog_name" name="product_catalog_name"/>

 <field column="price" name="product_price"/>

 <field column="description" name="product_description"/>

 <field column="picture" name="product_picture"/>

</entity>   

</document>   

</dataConfig>

 第三步:创建dataimport处理器

--说明:Solr是在solrconfig.xml文件中,通过<requestHandler>标签定义各类请求处理器

 

--修改solrconfig.xml,添加如下配置。(加载data-config.xml映射文件)

<requestHandler name="/dataimport"

class="org.apache.solr.handler.dataimport.DataImportHandler">

           <lst name="defaults">

           <str name="config">data-config.xml</str>

           </lst>

  </requestHandler> 

 

第四步:重启tomcat,在管理界面测试

--测试清空索引库,成功!!!

 

 Analyzer分析器,配置中文分词器

 Solr自带分词器的缺陷

--solrLucene一样,提供了很多分析器。可以在Analyzer选型下测试分词效果。

lr配置中文分析器

 中文分析器选择

选择IK中文分词器。

 

 配置步骤

 第一步:添加IkAnalyzejar依赖

--IKAnalyzer2012FF_u1.jar添加到solr/WEB-INF/lib目录下。

 

 第二步:加载IkAnalyzer的核心配置文件

--拷贝IkAnalyzer的配置文件到solr/WEB-INF/classes目录

 第三步:创建中文分词器

--schema.xml中自定义一个FieldType,指定中文分词器IKAnalyzer

<!-- IKAnalyzer-->

    <fieldType name="text_ik" class="solr.TextField">

             <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>

    </fieldType>

测试中文分词器

 第一步:重启tomcat
 第二步:在analysis选项卡下,测试分词效果。成功!!!

改造业务域,使用IK做分词器

--修改schem.xml文件,修改需要分词的域的fieldType类型

 

我们只需要修改product_nameproduct_description两个业务域即可。

<field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" />

  

   <field name="product_name" type="text_ik" indexed="true" stored="true"/>

   <field name="product_catalog_name" type="string" indexed="true" stored="true" />

   <field name="product_price"  type="double" indexed="true" stored="true"/>

   <field name="product_description" type="text_ik" indexed="true" stored="false" />

   <field name="product_picture" type="string" indexed="false" stored="true" />

 

--重启tomcat即可。

 

posted @ 2019-08-13 19:46  茫茫林海  阅读(192)  评论(0编辑  收藏  举报