Lucene系列-近实时搜索(1)
近实时搜索(near-real-time)可以搜索IndexWriter还未commit的内容,介于immediate和eventual之间,在数据比较大、更新较频繁的情况下使用。本文主要来介绍下如何使用,其原理还没弄透,改天再续。本文代码基于lucene 4.10
IndexReader的重建
想要看到新的结果就需要重新打开一个IndexReader,DirectoryReader提供了DirectoryReader openIfChanged(DirectoryReader oldReader)函数,只有索引有变化时才建立新reader(不是完全打开一个new reader,会复用old reader的一些资源,并入新索引,降低一些开销), 否则返回oldReader。
IndexWriter writer = new IndexWriter(ramDir, writerConfig); //IndexReader,基于IndexWriter打开的IndexReader IndexReader reader = DirectoryReader.open(writer, true); IndexSearcher searcher = new IndexSearcher(reader); //update index //openIfChanged,如果有提交或未提交的变化,就打开新的indexreader。记住关闭old reader IndexReader newReader = DirectoryReader.openIfChanged((DirectoryReader) reader, writer, true); if (reader != newReader) { searcher = new IndexSearcher(newReader); reader.close(); }
使用过程:DirectoryReader尝试打开新IndexReader;判断是否获得新Reader;如果成功,关闭老reader。
SearchManager
在实际应用中,会并行的进行搜索、建索引、打开新Reader、关闭老reader,操作比较复杂还有线程安全问题。为了简化使用流程,lucene提供了SearcherManager extends ReferenceManager<IndexSearcher>管理IndexReader的重建和关闭,保证了线程安全,封装了IndexSearcher的生成。主要提供如下三个接口:
- acquire获取当前已打开的最新IndexSearcher
- release释放不用的引用,本质调的是IndexReader.close(),当一个IndexReader内部的引用计数为0时,会关闭自己释放资源。
- maybeRefresh,尝试打开新的IndexReader,本质调用的是DirectoryReader.openIfChanged
ReferenceManager<IndexSearcher> searcherManager = new SearcherManager(writer, true, new SearcherFactory()); SearchersearcherManager.maybeRefresh() IndexSearcher searcher = searcherManager.acquire(); //after using,释放掉 searcherManager.release(searcher); searcherManager.close();
ControlledRealTimeReopenThread
如上,如果想获得最新的searcher,就需要周期性的调用maybeRefresh来更新searcher引用。Lucene提供了ControlledRealTimeReopenThread线程工具类来负责周期性的打开ReferenceManager(调用ReferenceManager.maybeRefresh)。该线程类控制打开间隔比较灵活,当有外部用户在等待重新打开Searcher时就按最小时间间隔等待,如果没有用户着急获取新Searcher,则等待最大时间间隔后再打开。其构造函数如下:
ControlledRealTimeReopenThread(TrackingIndexWriter writer, ReferenceManager<T> manager, double targetMaxStaleSec, double targetMinStaleSec)//单位秒
如何判断是否有人等待?
TrackingIndexWriter封装了IndexWriter,为每次更新索引的操作赋予一个标记(generation,代数),递增变化。用户使用ControlledRealTimeReopenThread.waitForGeneration告诉其期望获得更新代数,ControlledRealTimeReopenThread记录了当前已打开的代数,当期望更新代数大于已打开代数时,就表示有用户期望获得最新Search。
如果想利用TrackingIndexWriter提供的代数概念,每次使用IndexWriter都要经过TrackingIndexWriter,否则代数没意义。但是如果只希望每隔10s打开一次新searcher,并不在意某次更新快速看到,那就可以忽略TrackingIndexWriter,ControlledRealTimeReopenThread就退化为一个clock线程。
ControlledRealTimeReopenThread th = new ...; th.start(); th.waitForGeneration(targetGen);