lucene学习教程

1Lucene的介绍

　　①Lucene是什么：

是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎

　　②Lucene有什么用

Lucene是一个高性能、可伸缩的信息搜索(IR)库。它可以为你的应用程序添加索引和搜索能力,和对搜索词进行分析过滤

　　③Lucene怎么用

 1 //        Lucene使用步骤
 2 //        1创建索引
 3 //        1.1创建索引目录
 4         Directory directory=FSDirectory.open(new File("indexDir"));
 5 //        1.2创建indexWriter
 6         IndexWriterConfig conf=new IndexWriterConfig(Version.LUCENE_35, new StandardAnalyzer(Version.LUCENE_35));
 7         IndexWriter indexWriter=new IndexWriter(directory, conf);
 8 //        1.3创建document
 9         Document document=new Document();
10 //        1.4为document指定不同的域（Field）
11         document.add(new Field("fileName","java.txt",Store.YES,Index.ANALYZED));
12         document.add(new NumericField("creatDate",Store.YES,true).setLongValue(new Date().getTime()));
13         document.add(new NumericField("size",Store.YES,true).setDoubleValue(10101.22));
14         document.add(new Field("content",FileUtils.readFileToString(new File("java.txt")),Store.NO,Index.ANALYZED));
15 //        1.5使用indexWriter.add(doc)方法，添加索引
16         indexWriter.addDocument(document);
17 //        1.6关闭indexWriter
18         indexWriter.close();
19 //        2搜索索引
20 //        2.1指定索引存放位置
21         Directory indexDirectory=FSDirectory.open(new File("indexDir"));
22 //        2.2创建indexReader
23         IndexReader indexReader=IndexReader.open(indexDirectory);
24 //        2.3创建indexSearcher
25         IndexSearcher indexSearcher=new IndexSearcher(indexReader);
26 //        2.4创建query
27         Query query=new TermQuery(new Term("fileName","java"));
28 //        2.5根据indexSearcher.seacher(query,maxDoc);获取topDocs
29         TopDocs topDocs = indexSearcher.search(query, 100);
30 //        2.6根据topDocs获取ScoreDocs[]
31         ScoreDoc[] scoreDocs=topDocs.scoreDocs;
32 //        2.7遍历ScoreDocs[]获取docId
33         for (ScoreDoc scoreDoc : scoreDocs) {
34             int docId=scoreDoc.doc;
35 //            2.8根据docId调用indexSearcher.doc(docId)方法获取一个document
36             Document doc = indexSearcher.doc(docId);
37 //            2.9对document进行解析，获取需要的值
38             System.out.println("fileName-->"+document.get("fileName")+"createDate--->"+new Date(Long.parseLong(doc.get("createDate"))));
39         }
40 //        3.0关闭indexSearcher和indexReader 
41         indexSearcher.close();
42         indexReader.close();

2Lucene的组成

　　①索引

　　　　I索引建立的主要流程

 1 //        1指定索引的存放目录
 2         Directory directory=FSDirectory.open(new File("paht"));//硬盘
 3 //        //OR
 4         Directory directory2=new RAMDirectory();//内存
 5 //        2创建indexWriter
 6         IndexWriterConfig conf=new IndexWriterConfig(Version.LUCENE_35, new StandardAnalyzer(Version.LUCENE_35));
 7         IndexWriter indexWriter=new IndexWriter(directory, conf);
 8 //        3创建文档（document）（对于数据库而言，一个条记录就是一个文档，对于文件而言，一个文件就是一个文档）
 9 //        1.3创建document
10         Document document=new Document();
11 //        4为文档指定域（Field）（对于数据库而言，域相当于字段，对于文件而言域相当于属性）
12         document.add(new Field("fileName","java.txt",Store.YES,Index.ANALYZED));
13         document.add(new NumericField("creatDate",Store.YES,true).setLongValue(new Date().getTime()));
14         document.add(new NumericField("size",Store.YES,true).setDoubleValue(10101.22));
15         document.add(new Field("content",FileUtils.readFileToString(new File("java.txt")),Store.NO,Index.ANALYZED));
16 //        5添加索引 
17         indexWriter.addDocument(document);

　　II、重要类的介绍

　directory

是用来指定索引的存放位置，可以是内存也可以是硬盘，FSDirectory.open(new File("paht")),会根据本地文件系统，自动选择一种最合适的方式存储索引

　　indexWriter　

是用来对索引的进行增删改的重要操作类

Document

document对象对于数据库而言，一个条记录就是一个document，对于文件而言，一个文件就是一个document

　Field

Field对象对于数据库而言，Field相当于字段(例如 name、age、、、、)，对于文件而言Field相当于属性（例如文件名（name）..）
子类NumericField是用来存储数据类型的的字段的值，例如int 、long、double、,还有日期可以转换为long型后存储

　II索引的增删改
　　①增加索引

indexWriter.addDocument(document);

　②删除索引

1 //删除索引
2 indexWriter.deleteDocuments(new Term("fileName","java"));//删除文件名等于Java的document--删除后只是放在一个临时文档里，不被检索，并没有真正删除
3 indexWriter.forceMergeDeletes();//强制把删除的document删除掉

　　③更新索引

1 //更新索引--索引的更新原理：1根据query删除掉对应document，然后再把新的document放进去
2 indexWriter.updateDocument(new Term("fileName","java"), document);

　III索引的权重

1 //①对于默认情况下，索引的排序是按照评分来排序的，评分公式是Score=Score*Boot  ,
2 //分数*权重，只要保证Boot的足够大，那么对应搜索的document就会排在第一位
3 //设置权重的办法是：
4 document.setBoost(1000F);

　　②分词
　　　I分词运行流程分析

①searchWord首先会被Tokenizer分成一个一个的语汇单元，
②然后会经过一系列的TokenFilter（分词过滤器），过滤掉没意义的分词，例如“的，啊 ”这些感叹词
③经过一系列TokenFilter后，返回一个TokenStream，就是一个分词字符流，流里存有分词个各种信息

　　　如下图：
　　　
　　　II分词的类介绍
　　　　1Analyzer:分词器，是一个抽象类　　

1 //其主要包含两个接口，用于生成TokenStream：
2 TokenStream tokenStream(String fieldName, Reader reader);
3 TokenStream reusableTokenStream(String fieldName, Reader reader) ;
4 //为了提高性能，在同一个线程中无需再生成新的TokenStream对象，旧的可以被重用，reusableTokenStream是获取当前线程TokenSteam。

　　　　2Tokenizer　

Tokenizer继承与TokenStream，是用来对searchWord的reader流进行分词，把searchWord分成一个一个的语汇单元

　　　　3TokenFilter　

TokenFilter,过滤分词后的语汇单元，
主要方法incrementToken(),可以依次遍历语汇单元的信息

　　　　4TokenStream

分词字符流，流里存有分词个各种信息
例如：CharTermAttribute、OffsetAttribute、PositionIncrementAttribute、TypeAttribute、、等等

　　 III扩展分词器

　　　　基本原理：就是使用自定义分词器的扩展原生analyzer的构造方法，然后用analyzer对应的Tokenizer分词，然后再使用自定义的TokenFilter过滤业务逻辑数据，　　　

　　　　1自定义一个类继承analyzer

1 public class MyAnalyzer extends Analyzer {2}

　　　　2实现tokenStream方法

1 public class MyAnalyzer extends Analyzer {
2     @Override
3     public TokenStream tokenStream(String arg0, Reader reader) {
4         return null;
5     }
6 }

　　　　3自定义TokenFilter

package com.lucence.analyzer;

import java.io.IOException;
import java.util.HashMap;
import java.util.Map;
import java.util.Stack;

import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;
/**
 * 自定义分词过滤器
 * 1自定义类继承TokenFilter
 * 2实现指定的方法-incrementToken
 * 3在incrementToken里会遍历所有被分词的词汇单元，
 * 4实现自己的业务逻辑
 *
 */
public class MyAnalyzerFilter extends TokenFilter {
    private CharTermAttribute cta;
    private PositionIncrementAttribute pia;
    private State state;
    private Stack<String> sameWordStack;
    protected MyAnalyzerFilter(TokenStream input) {
        super(input);
        this.cta=input.addAttribute(CharTermAttribute.class);
        this.pia=input.addAttribute(PositionIncrementAttribute.class);
        sameWordStack=new Stack<String>();
    }

    @Override
    public boolean incrementToken() throws IOException {
        if(sameWordStack.size()>0){
            String pop = sameWordStack.pop();
            //恢复状态
            restoreState(state);
            cta.setEmpty();
            cta.append(pop);
            pia.setPositionIncrement(0);
            //System.out.print("["+cta+"]"+pia.getPositionIncrement());
            
            System.out.println(state.hashCode());
            return true;
        }
        if (!input.incrementToken()) {
            return false;
        }
        if(getSameWorder(cta.toString())){
            //捕获当前状态
            state=captureState();
        }
        return true;
    }
    /**
     * 同义词处理--数据
     */
    private Boolean getSameWorder(String key){
        //1申明一个map存放同义词---模拟数据库
        Map<String, String[]> map=new HashMap<String, String[]>();
        map.put("我",new String[]{"咱","吾","俺"});
        map.put("中国",new String[]{"大陆","天朝"});
        String[] strings = map.get(key);
        if(strings!=null&&strings.length>0){
            for (int i = 0; i < strings.length; i++) {
                sameWordStack.push(strings[i]);
            }
            return true;
        }else{
            return false;
        }
    }
}

　　4使用自定义的TokenFilter返回处理后的TokenStream

public class MyAnalyzer extends Analyzer {
    @Override
    public TokenStream tokenStream(String arg0, Reader reader) {
        return new MyAnalyzerFilter(new IKTokenizer(reader,false));
    }
}

　　③搜索

　　　I搜索的运行流程

//        1.1指定索引存放位置
        Directory indexDirectory=FSDirectory.open(new File("indexDir"));
//        1.2创建indexReader---indexReader.openIfChanged(oldReader)，监听索引是否有改变,若索引有改变则重新获取indexReader
        IndexReader indexReader=IndexReader.open(indexDirectory);
//        1.3创建indexSearcher
        IndexSearcher indexSearcher=new IndexSearcher(indexReader);
//        1.4创建query
        Query query=new TermQuery(new Term("fileName","java"));
//        1.5根据indexSearcher.seacher(query,maxDoc);获取topDocs
        TopDocs topDocs = indexSearcher.search(query, 100);
//        1.6根据topDocs获取ScoreDocs[]
        ScoreDoc[] scoreDocs=topDocs.scoreDocs;
//        1.7遍历ScoreDocs[]获取docId
        for (ScoreDoc scoreDoc : scoreDocs) {
            int docId=scoreDoc.doc;
//            1.8根据docId调用indexSearcher.doc(docId)方法获取一个document
            Document doc = indexSearcher.doc(docId);
//            1.9对document进行解析，获取需要的值
            System.out.println("fileName-->"+doc.get("fileName")+"createDate--->"+new Date(Long.parseLong(doc.get("createDate"))));
        }
//        2.0关闭indexSearcher和indexReader 
        indexSearcher.close();
        indexReader.close();

　　 IIquery类的介绍

①termQuery:精确查询 new term(field,value)
②termRangeQuery:字符串范围查询new TermRangeQuery(field, lowerTerm, upperTerm, includeLower, includeUpper)
③NumericRange:数字范围查询，NumericRangeQuery.newTRange(field, min, max, minInclusive, maxInclusive)--T代表泛型
④QueryParser:
⑤prefixQuery:前缀查询--new PrefixQuery(new term(field,prefix))
⑥wildCartQuery:通配符查询--new wildCartQuery(new term(field,value))---value已经包含通配符，例如"*bb*",查找包含bb的数据
⑦BooleanQuery:条件查询，可以连接多个多个条件
  例如：

1 BooleanQuery booleanQuery=new BooleanQuery();
2 booleanQuery.add(query1,occur)
3 booleanQuery.add(query2,occur)
4 booleanQuery.add(query3,occur)

occur的值说明
   must:一定，必须有，相当于数据库的and
   should:可能有，，相当于数据库的or
   MUST_NOT:一定没有，不存在，相当于数据库的不等于

⑧FuzzyQuery：模糊查询，

new FuzzyQuery(term, minimumSimilarity),可以 设置minimumSimilarity来设置匹配程度，越高匹配程度越高，
new FuzzyQuery(new term("name","bbcs"), minimumSimilarity)---含有bbc或者bbXs会被匹配出来

⑨phraseQuery:语义查询，对于中文，使用作用不大，

PhraseQuery phraseQuery=new PhraseQuery();
// 1设置跳跃的范围
phraseQuery.setSlop(2);
//2设置开始的单词
phraseQuery.add(new Term("content","i"));
// 3设置结束的单词
phraseQuery.add(new Term("content","you"));
//例如包含i love you的内容将会出来

　　 III扩展queryParse类

package com.lucence.query;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.util.Version;

/**
 * 扩展queryParse类
 * queryParse的查询的原理：先对查询的字符串进行分析，然后再使用对应的query去查询，
 * 例如有通配符字符，就添加wildCartQuery去查询 ，如果*这些的，就添加FuzzyQuery去查询
 * 也就说，如果我们想扩展queryParse的查询，那么可以自定义一个类，然后继承queryParse的，然后重构对应的getxxxquery()方法，并且在里面实现业务逻辑，则就可以实现扩展queryParse的功能
 */
//1第一步自定义类继承Lucene的queryParse
public class myQueryParse extends QueryParser {

    //2选择一个重写一个构造方法
    public myQueryParse(Version matchVersion, String f, Analyzer a) {
        super(matchVersion, f, a);
    }
    //3重写对应的getXXQuery方法--并且在方法里实现业务逻辑
    /**
     * field--搜索域
     * termStr---搜索值
     */
    @Override
    protected org.apache.lucene.search.Query getWildcardQuery(String field,
            String termStr) throws ParseException {
        if(termStr.indexOf("?")!=-1){
            throw new ParseException("不能使用通配符查询");
        }
        return super.getWildcardQuery(field, termStr);
    }
    /**
     * field--搜索域
     * termStr---搜索值
     */
    @Override
    protected org.apache.lucene.search.Query getFuzzyQuery(String field,
            String termStr, float minSimilarity) throws ParseException {
        return super.getFuzzyQuery(field, termStr, minSimilarity);
    }
}

　　 IV排序与分页

　　排序：

//①排序：默认是根据score排序，score默认是=score（关联性）*boot(权重)
SortField sortField1=new SortField("fileName",SortField.STRING,true);//content--"字段名称", ,SortField.STRING-"字段在存放时的类型",true--是否反转
SortField sortField2=new SortField("size",SortField.INT,false);//content--"字段名称", ,SortField.BYTE-"字段在存放时的类型",true--是否反转
Sort sort=new Sort(sortField1,sortField2);
TopDocs topDocs = searcher.search(query,10,sort);

　　分页：　　　

//1searchAfter(scoreDocAfter, query, pagezie)方法是每次返回scoreDocAfter后面的document，
int docId=(pagezie-1)*pageNumber-1;//每次查询是记录开始行
ScoreDoc scoreDocAfter=new ScoreDoc(docId,0f);
TopDocs topDocs = searcher.searchAfter(scoreDocAfter, query, pagezie);

　　 V搜索过滤器

package com.lucence.searchFilter;

import java.io.IOException;

import org.apache.lucene.document.Document;
import org.apache.lucene.index.AbstractAllTermDocs;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.Term;
import org.apache.lucene.index.TermDocs;
import org.apache.lucene.search.DocIdSet;
import org.apache.lucene.search.Filter;
import org.apache.lucene.util.OpenBitSet;
/**
 * 自定义搜索过滤器
 * 1新建一个类继承Lucene的Filter
 * 2实现getDocIdSet方法
 * 3根据indexReader获取到返回的document
 * 4根据自己的业务逻辑处理后返回DocIdSet
 * @author Jeremy
 *
 */
public class MySearchFilter extends Filter {

    @SuppressWarnings("unused")
    @Override
    public DocIdSet getDocIdSet(IndexReader indexReader)
            throws IOException {
        // TODO Auto-generated method stub
        int maxDoc = indexReader.maxDoc();//获取返回document的数目
        OpenBitSet docIdSet=new OpenBitSet(maxDoc);//默认是64位大小，但是如果超出没报异常，所以一般在indexReader里获取返回document的大小
        //docIdSet是一个相当于一个列表--如下面
        //status    document
        // 0         docId
        // 1         docId
        //若status是0 ，则document将不会被显示出来，
        //也就说，我们在filter把不需要的document可以过滤掉
        //1填满列表---默认是空
        docIdSet.set(0, maxDoc);
        //2获取返回的document
        //2.1直接使用indexReader来获取符合过滤条件的document
        //TermDocs---存储了两个变量，一个是返回的docId数组，一个每个document出现"javass.txt"的频率次数
        TermDocs termDocs =indexReader.termDocs(new Term("content","jeremy"));
        while (termDocs.next()) {
                System.out.println(termDocs.doc());
                Document document = indexReader.document(termDocs.doc());
                System.out.println("fileName"+document.get("fileName")+"---出现频率："+termDocs.freq()+"---被过滤掉了");
                docIdSet.clear(termDocs.doc());//clear()方法相当于把status设置为0
        }
        return docIdSet;
    }

}

　　 VI自定义评分

　　实现步骤：

　　* 自定义评分
　　* 默认的评分机制是 score=score*Root = 分数*索引的权重
　　* 自定义评分的实现流程
　　* 1新建一个类及承诺CustomScoreQuery
　　* 2覆盖CustomScoreQuery(Query subQuery, ValueSourceQuery valSrcQuery)的构造方法--ValueSourceQuery：评分域查询对象
　　* 3覆盖 getCustomScoreProvider(IndexReader reader)方法
　　* 4新建一个类继承CustomScoreProvider
　　* 5覆盖CustomScoreProvider的customScore(int doc, float subQueryScore, float valSrcScore)方法，
　　* --------doc:docId,subQueryScore:原有评分，valSrcScore：我们自定义传入的评分
　　* 6在customScore(int doc, float subQueryScore, float valSrcScore)方法里返回经过业务逻辑处理的的自定义评分
　　* 7在getCustomScoreProvider返回自定的义的MyCustomScoreProvider对象
　　* 8在查询中使用MyCustomerScroeQuery

　　代码示例：

package com.lucence.scoreQuery;

import java.io.IOException;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.function.CustomScoreProvider;
import org.apache.lucene.search.function.CustomScoreQuery;
import org.apache.lucene.search.function.ValueSourceQuery;
/**
 * 自定义评分
 * 默认的评分机制是  score=score*Root =  分数*索引的权重
 * 自定义评分的实现流程
 * 1新建一个类及承诺CustomScoreQuery
 * 2覆盖CustomScoreQuery(Query subQuery, ValueSourceQuery valSrcQuery)的构造方法--ValueSourceQuery：评分域查询对象
 * 3覆盖 getCustomScoreProvider(IndexReader reader)方法
 * 4新建一个类继承CustomScoreProvider
 * 5覆盖CustomScoreProvider的customScore(int doc, float subQueryScore, float valSrcScore)方法，
 * --------doc:docId,subQueryScore:原有评分，valSrcScore：我们自定义传入的评分
 * 6在customScore(int doc, float subQueryScore, float valSrcScore)方法里返回经过业务逻辑处理的的自定义评分
 * 7在getCustomScoreProvider返回自定的义的MyCustomScoreProvider对象
 * 8在查询中使用MyCustomerScroeQuery
 * @author Jeremy
 *
 */
// 1新建一个类及承诺CustomScoreQuery
public class MyCustomerScroeQuery extends CustomScoreQuery {
    //2覆盖CustomScoreQuery(Query subQuery, ValueSourceQuery valSrcQuery)的构造方法--ValueSourceQuery：评分域查询对象
    public MyCustomerScroeQuery(Query subQuery, ValueSourceQuery valSrcQuery) {
        super(subQuery, valSrcQuery);
    }
    public MyCustomerScroeQuery(Query subQuery) {
        super(subQuery);
    }
    @Override
    //3覆盖 getCustomScoreProvider(IndexReader reader)方法
    protected CustomScoreProvider getCustomScoreProvider(IndexReader reader)throws IOException {
        //7在getCustomScoreProvider返回自定的义的MyCustomScoreProvider对象
        return new MyCustomScoreProvider(reader);
    }

}

package com.lucence.scoreQuery;

import java.io.IOException;

import org.apache.lucene.document.Document;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.search.function.CustomScoreProvider;
// 4新建一个类继承CustomScoreProvide
public class MyCustomScoreProvider extends CustomScoreProvider{

    public MyCustomScoreProvider(IndexReader reader) {
        super(reader);
    }
    @Override
    /**
     *  5覆盖CustomScoreProvider的customScore(int doc, float subQueryScore, float valSrcScore)方法，
     *  --------doc:docId,subQueryScore:原有评分，valSrcScore：我们自定义传入的评分
     */
    //subQueryScore * valSrcScore;---默认的评分是原有的评分乘以评分域的的值
    public float customScore(int doc, float subQueryScore, float valSrcScore)
            throws IOException {
        //6在customScore方法里返回业务逻辑处理后的自定义评分
        System.out.println(subQueryScore+"------"+valSrcScore);
        Document document = reader.document(doc);
        if(document.get("fileName").endsWith(".txt")){//文件类型为。txt的优先排序
            return subQueryScore*valSrcScore*100;
        }
        return super.customScore(doc, subQueryScore, valSrcScore);
    }
}

　　使用代码示例：

public void test01(){
        //3.1指定搜索目录
        try {
            Directory directory=FSDirectory.open(new File("C:/lucence/index"));
            //3.2创建索引读取器(IndexReader)
            IndexReader indexReader=IndexReader.open(directory);
            //3.3根据IndexReader创建索引搜索器(indexSeacher)
            IndexSearcher searcher=new IndexSearcher(indexReader);
            //3.4创建查询器query----使用QueryParser的parser()方法创建--创建query
            Query query=null;
            QueryParser parser=new QueryParser(Version.LUCENE_35,"content",new StandardAnalyzer(Version.LUCENE_35));
            query=parser.parse("spring");
//            //3.4.2c创建评分域---可以使用评分域去评分，也可以不使用----评分域的得类型必须是数据类型---
//            FieldScoreQuery fieldScoreQuery=new FieldScoreQuery("fileName",Type.BYTE);
//            //3.4.3使用MyCustomerScroeQuery来构建query
//            MyCustomerScroeQuery myCustomerScroeQuery = new MyCustomerScroeQuery(query, fieldScoreQuery);
            MyCustomerScroeQuery myCustomerScroeQuery=new MyCustomerScroeQuery(query);
            //3.5使用自定义的myCustomerScroeQuery进行查询过，IndexSeacher执行查询，并获取返回TopDocs---文档集合
            TopDocs topDocs = searcher.search(myCustomerScroeQuery,100);
            //3.6根据TopDocs(文档集合)获取scoreDocs---分数文档
            ScoreDoc[] scoreDocs=topDocs.scoreDocs;
            for (ScoreDoc scoreDoc : scoreDocs) {
                //3.7根据ScoreDocs的doc Id在indexSeacher(索引搜索器)中获取文档对象，
                Document doc = searcher.doc(scoreDoc.doc);
                //3.8解析文档对象，获取对应的值
                System.out.println(doc.get("fileName")+"["+doc.get("dir")+"]"+doc.getBoost());
            }
            
            //3.9关闭索引读取器
            indexReader.close();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (ParseException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

posted @ 2015-12-07 22:08 Jeremy_software 阅读(3455) 评论(3) 编辑收藏举报

刷新页面返回顶部

Jeremy_software

lucene学习教程

公告