Lucene.Net 2.4.0无障碍学习和使用：索引篇

项目中可能需要再次用到Lucene.Net，利用空闲时间写了个demo，主要涉及到索引的创建、删除、更新和一个简单查询。在本文示例中，Lucene.Net的版本是2.4.0，某些类和方法与最新版本或者较旧的版本有较多不同，希望您阅读顺利。

一、简单认识索引

Lucene.Net的应用相对比较简单。一段时间以来，我最多只是在项目中写点代码，利用一下它的类库而已，对很多名词术语不是很清晰，甚至理解可能还有偏差。从我过去的博客你也可以看出，语言表达一直不是个人所长，就算”表达“了也有大面积抄书的嫌疑，所以很多概念性的介绍能省则省（除非特别有别要说明），希望有心的初学者注意，理清概念和辨别技术名词非常重要，请参考相关文档。

Lucene的索引由1或多个segment（片段）构成，一个segment由多个document构成，一个document又由1个或多个field构成，一个field又由一个或多个term构成。下面这张图可以说明一切：

从图中不难看出，Lucene的索引是一个由点到线，由线到面的组成结构，这一点我们可以通过查看Lucene生成的索引文件看出来。

参考图片来源： http://alone2004.spaces.live.com/blog/cns!C2525069080D7BB!675.entry

二、创建、优化、删除和更新索引实践

备注：在解决方案所在文件夹中，有一个测试用的Resource文件夹，内有4个.txt文件。我在本地测试的时候，就使用了Resource下的四个文本文件。

1、索引保存至文件

（1）、创建索引

先初始化一个IndexModifier对象，然后执行创建索引的核心方法：

01
/// <summary> 

02
/// 给txt文件创建索引 

03
/// </summary> 

04
/// <param name="file"></param> 

05
/// <param name="modifier"></param> 

06
private void IndexFile(FileInfo file, IndexModifier modifier) 

07
{ 

08
    try

09
    { 

10
        Document doc = new Document();//创建文档，给文档添加字段，并把文档添加到索引书写器里 

11
        SetOutput("正在建立索引，文件名：" + file.FullName); 

12
 
13
        doc.Add(new Field("id", id.ToString(), Field.Store.YES, Field.Index.TOKENIZED));//存储且索引 

14
        id++; 

15
 
16
        /* filename begin */

17
        doc.Add(new Field("filename", file.FullName, Field.Store.YES, Field.Index.TOKENIZED));//存储且索引 

18
        //doc.Add(new Field("filename", file.FullName, Field.Store.YES, Field.Index.UN_TOKENIZED)); 

19
        //doc.Add(new Field("filename", file.FullName, Field.Store.NO, Field.Index.TOKENIZED)); 

20
        //doc.Add(new Field("filename", file.FullName, Field.Store.NO, Field.Index.UN_TOKENIZED)); 

21
        /* filename end */

22
 
23
        /* contents begin */

24
        //doc.Add(new Field("contents", new StreamReader(file.FullName, System.Text.Encoding.Default))); 

25
 
26
        string contents = string.Empty; 

27
        using (TextReader rdr = new StreamReader(file.FullName, System.Text.Encoding.Default)) 

28
        { 

29
            contents = rdr.ReadToEnd();//将文件内容提取出来 

30
            doc.Add(new Field("contents", contents, Field.Store.YES, Field.Index.TOKENIZED));//存储且索引 

31
            //doc.Add(new Field("contents", contents, Field.Store.NO, Field.Index.TOKENIZED));//不存储索引 

32
        } 

33
        /* contents end */

34
        modifier.AddDocument(doc); 

35
    } 

36
 
37
    catch (FileNotFoundException fnfe) 

38
    { 

39
    } 

40
}

最后，IndexModifier对象执行Close方法。

几个注意点：

a、IndexModifier类封装了平时经常使用的IndexWriter和IndexReader，而且不用我们额外考虑多线程；

b、StandardAnalyzer是经常使用的一个Analyzer，目前对中文分词支持的也还不错（大名鼎鼎的盘古分词请参考牛人eaglet的这几篇）；

c、IndexModifier的Optimize方法的执行可以优化索引文件，但是比较耗时间，根据我的测试，索引文件越大，优化时间线性增加，所以实际的开发中这个方法我们都会按照一定的策略执行；

c、IndexModifier的Close方法必须执行，否则你所做的一切都是无用功。

（2）、按照id删除一条索引

代码相对而言非常简单，直接利用IndexModifier 的DeleteDocuents方法：

1
Directory directory = FSDirectory.GetDirectory(INDEX_STORE_PATH, false); 

2
IndexModifier modifier = new IndexModifier(directory, new StandardAnalyzer(), false); 

3
 
4
Term term = new Term("id", id); 

5
modifier.DeleteDocuments(term);//删除   

6
modifier.Close(); 

7
directory.Close();

其中，IndexModifier还有一个方法DeleteDocument，它的参数是整数docNum，通常我们也不知道索引文件的内部docNum是多少，所以非常少用它。

（3）、按照id更新一条索引

贴一下主要方法：

01
bool enableCreate = IsEnableCreated();//是否已经创建索引文件 

02
Term term = new Term("id", id); 

03
Document doc = new Document(); 

04
doc = new Document();//创建文档，给文档添加字段，并把文档添加到索引书写器里 

05
doc.Add(new Field("id", id, Field.Store.YES, Field.Index.TOKENIZED));//存储且索引 

06
doc.Add(new Field("filename", filename, Field.Store.YES, Field.Index.TOKENIZED)); 

07
doc.Add(new Field("contents", filename, Field.Store.YES, Field.Index.TOKENIZED)); 

08
LuceneIO.Directory directory = LuceneIO.FSDirectory.GetDirectory(INDEX_STORE_PATH, enableCreate); 

09
IndexWriter writer = new IndexWriter(directory, new StandardAnalyzer(),IndexWriter.MaxFieldLength.LIMITED); 

10
writer.UpdateDocument(term, doc); 

11
writer.Optimize(); 

12
//writer.Commit(); 

13
writer.Close(); 

14
directory.Close();

需要注意，这一次，我们使用了IndexWriter对象的UpdateDocument方法，而IndexModifier没有找到现成的UpdateDocument方法。Optimize通常需要执行一下，否则索引文件中会有两个相同id的索引。

2、索引保存至内存

如果1你已经理解了，2其实可以不用细究。在IndexModifier的构造函数里有一个重载：

`1`	`public` `IndexModifier(Directory directory, Analyzer analyzer,` `bool` `create);`

下面的示例代码中第一个参数RAMDirectory就是一个Directory，我们可以把它定义成静态，创建索引的时候就完成了保存至内存的效果：

`1`	`private` `static` `RAMDirectory ramDir =` `null;`

`2`	`IndexModifier modifier = new IndexModifier(ramDir, new StandardAnalyzer(),` `true);`

经测试，增删改查原理同1。

3、利用Lucene.Net配合数据库查询

平时开发中，对于数据库中的海量数据，频繁读库可能不能满足效率和速度的需求。我们也可以利用Lucene.Net配合数据库快速查询结果。至于如何对数据库利用Lucene.Net创建索引，增删改查和同1中的介绍是一模一样的。比如本文demo中创建索引的实现，取前1000个人对他们的Id和姓名进行索引。在编码之前，我先往Person表中插入了一些数据：

1
INSERT Person(FirstName,LastName,Weight,Height) VALUES('明','姚',200,223) 

2
INSERT Person(FirstName,LastName,Weight,Height) VALUES('建联','易',180,213) 

3
INSERT Person(FirstName,LastName,Weight,Height) VALUES('德科','诺维斯基',180,211) 

4
INSERT Person(FirstName,LastName,Weight,Height) VALUES('德怀特','霍华德',190,218) 

5
INSERT Person(FirstName,LastName,Weight,Height) VALUES('约什','霍华德',178,197) 

6
INSERT Person(FirstName,LastName,Weight,Height) VALUES('蒂姆','邓肯',183,211) 

7
INSERT Person(FirstName,LastName,Weight,Height) VALUES('凯文','加内特',182,215) 

8
INSERT Person(FirstName,LastName,Weight,Height) VALUES('德隆','威廉姆斯',166,197)

接着先取出1000个人：

`1`	`string` `sql =` `"SELECT TOP 1000 Id,FirstName,LastName FROM Person(NOLOCK)";`

`2`	`IList<Person> listPersons = EntityConvertor.QueryForList<Person>(sql, strSqlConn,` `null);`

然后建立索引即可：

01
private void IndexDB(IndexModifier modifier,IList<Person> listModels) 

02
   { 

03
       SetOutput(string.Format("正在建立数据库索引，共{0}人",listModels.Count)); 

04
       foreach (Person item in listModels) 

05
       { 

06
           Document doc = new Document();//创建文档，给文档添加字段，并把文档添加到索引书写器里 

07
           doc.Add(new Field("id", item.Id.ToString(), Field.Store.YES, Field.Index.TOKENIZED));//存储且索引 

08
           doc.Add(new Field("fullname", string.Format("{0} {1}",item.FirstName,item.LastName), Field.Store.YES, Field.Index.TOKENIZED));//存储且索引 

09
           modifier.AddDocument(doc); 

10
       } 

11
   }

同样的道理，最后我们也执行这两个方法（Optimize方法不是一定要做的）：

`1`	`modifier.Optimize();//优化索引`

`2`	`modifier.Close();//关闭索引读写器`

三、搜索

本文示例代码中的搜索都是利用Lucene.Net的IndexSearcher默认的比较直接简单的一个搜索方法 Search(Query query, Filter filter, int n)，很多重载方法我也没有使用过：

01
/// <summary> 

02
    /// 根据索引搜索 

03
    /// </summary> 

04
    /// <param name="keyword"></param> 

05
    /// <returns></returns> 

06
    private TopDocs Search(string keyword,string field) 

07
    { 

08
        TopDocs docs = null; 

09
        int n = 10;//最多返回多少个结果 

10
        SetOutput(string.Format("正在检索关键字：{0}", keyword)); 

11
        try

12
        { 

13
            QueryParser parser = new QueryParser(field, new StandardAnalyzer());//针对内容查询 

14
            Query query = parser.Parse(keyword);//搜索内容 contents  (用QueryParser.Parse方法实例化一个查询) 

15
            Stopwatch watch = new Stopwatch(); 

16
            watch.Start(); 

17
            docs = searcher.Search(query, (Filter)null, n); //获取搜索结果 

18
            watch.Stop(); 

19
            StringBuffer sb = "索引完成,共用时：" + watch.Elapsed.Hours + "时 " + watch.Elapsed.Minutes + "分 " + watch.Elapsed.Seconds + "秒 " + watch.Elapsed.Milliseconds + "毫秒"; 

20
            SetOutput(sb); 

21
        } 

22
        catch (Exception ex) 

23
        { 

24
            SetOutput(ex.Message); 

25
            docs = null; 

26
        } 

27
        return docs; 

28
    } 

29
 
30
    /// <summary> 

31
    /// 显示搜索结果 

32
    /// </summary> 

33
    /// <param name="queryResult"></param> 

34
    private void ShowFileSearchResult(TopDocs queryResult) 

35
    { 

36
        if (queryResult == null || queryResult.totalHits == 0) 

37
        { 

38
            SetOutput("Sorry，没有搜索到你要的结果。"); 

39
            return; 

40
        } 

41
 
42
        int counter = 1; 

43
        foreach (ScoreDoc sd in queryResult.scoreDocs) 

44
        { 

45
            try

46
            { 

47
                Document doc = searcher.Doc(sd.doc); 

48
                string id = doc.Get("id");//获取id 

49
                string fileName = doc.Get("filename");//获取文件名 

50
                string contents = doc.Get("contents");//获取文件内容 

51
                string result = string.Format("这是第{0}个搜索结果,Id为{1},文件名为:{2}，文件内容为:{3}{4}", counter, id, fileName, Environment.NewLine, contents); 

52
                SetOutput(result); 

53
            } 

54
            catch (Exception ex) 

55
            { 

56
                SetOutput(ex.Message); 

57
            } 

58
            counter++; 

59
        } 

60
    }

下一篇我会补充介绍一下Lucene.Net常用的搜索、排序和分页，今天偷懒一下。

最后，本文demo中的代码算不上优美，可读性还凑合，希望大家下载之后看看吧，我还在幻想万一对新手能有所帮助，或者引来某个误入的高手指点一二，于人于己那就真是善莫大焉了。

demo下载：LuceneNetApp

posted @ 2011-01-02 10:28 冰封的心阅读(237) 评论(0) 编辑收藏举报

刷新页面返回顶部

冰封的心