ES 离线索引构建

本文讲解 ES 离线索引构建涉及一些核心功能实现原理，适用于10亿数据量，2-3小时内完成 ES 索引构建。
谈到索引构建，其实更熟悉的一个场景是：

一个线上服务，接收请求做了某些逻辑处理，然后想要将数据保存到 ES 用于后续的查询，这个过程是一般是基于 ES restful api 向 ES 集群写入 doc，这样就生成了 ES 索引。

但是，这里的 ES 离线索引构建一般讲的是大数据量级下（10亿）快速生成 ES 索引的方案，然后 ES 集群加载索引文件，对外提供查询服务的这么一种使用场景。这一般需要用到分布式索引构建，即借助 spark 集群，提交一个生成 ES 索引的 spark 任务，并行向 ES 写入10亿量级的数据，从而生成 ES 索引。

举例来说：10亿商品数据（一条商品 item 对应一个 ES document），需要用 ES 索引存储，生成商品索引，对外提供查询服务。将商品索引拆分成10个分片(shard)，离线构建时，通过某种 doc_id 路由策略能够比较均匀地将10亿数据分拆，那么每个分片存储1亿 doc。提交一个 spark 作业，每个 shard 启动一个构建任务，10个任务并行地生成 ES 索引，最终再将每个 spark 任务生成的索引数据"聚合"到商品索引中即可。

其中一种方案是：在 spark 集群的机器上提前安装好 ES（或者 spark 任务也可以通过 wget 下载 ES 安装包、解压安装、启动 ES 服务），spark 任务启动时，通过 Java ProcessBuilder 来启动 ES 服务，然后再通过 ES 提供的 restful client 的 bulk api 接口 indexing document，记录下这些生成的索引文件的目录，最终再合并即可。
这种方案有个明显的缺点是：bulk api 需要走 ES 的 transport 层，是通过 http 来写入 doc 的，吞吐量一般。但是好处是：无须任何开发改造、简单。

另一种方案是：直接在 spark 任务的本地机器上启动一个 ES 进程，依赖 ES 原生的 NodeClient 类提供的 api 操作，写入 doc 生成 ES 索引。这种方式避免了ES http transport 层的处理，非常高效。
具体来说，就是继承原生的 org.elasticsearch.node.Node 类，定义一个单例 ES 节点，然后通过它的 org.elasticsearch.node.Node#start 方法在 spark 任务本地节点启动一个 ES 进程。然后再通过 org.elasticsearch.node.Node#client 获取 ES 客户端 NodeClient，基于 NodeClient 提供的接口 org.elasticsearch.client.support.AbstractClient#bulk(org.elasticsearch.action.bulk.BulkRequest) 批量向 ES 写入 doc。

对于 10 个 shard 的 ES 索引而言，通过 spark 任务启动 10 个 ES 进程分别并行 bulk 写入 doc，就能极大提高写入速度。此外，对于每个 shard 而言，可以采用多线程批量并发写入 doc，记录下该 shard 生成的索引文件所在的磁盘目录即可。
由于 shard 写入 doc 生成的索引，其底层是多个段文件(segments)，在写入完毕后，合并索引文件，再对段文件进行合并，以确保每个 shard 只有一个 segment，这样也能保证在线查询的性能。

由于是 spark 任务写入 doc 生成 ES 索引，索引段文件其实就存储在 HDFS 目录下，可以并发地将每个sub-collections 所在目录下的索引文件下载下来，然后通过 Lucene 的 org.apache.lucene.index.IndexWriter#addIndexes(org.apache.lucene.store.Directory...)进行合并，
从该方法的源码注解可知：

Adds all segments from an array of indexes into this index.
This may be used to parallelize batch indexing. A large document collection can be broken into sub-collections. Each sub-collection can be indexed in parallel, on a different thread, process or machine. The complete index can then be created by merging sub-collection indexes with this method.

大数据量级的文档集合可以拆分成子集合，分别并行 indexing，然后将每个子集合下的索引文件合并即可。
那么，我们可以将各个段文件都下载到某一个目录下，然后创建 org.apache.lucene.index.IndexWriter，调用 org.apache.lucene.index.IndexWriter#addIndexes 将该 shard 下的所有索引文件合并。

接下来，则是段文件的合并，索引文件合并时，已经创建了 IndexWriter，段文件合并需要指定 org.apache.lucene.index.MergeScheduler，原生的 org.apache.lucene.index.ConcurrentMergeScheduler 有 RateLimit 限制，而我们这个场景是离线索引构建，因此可以继承：ConcurrentMergeScheduler，自定义一个 MergeScheduler，将 RateLimit 相关功能取消掉，从而达到最佳段文件合并性能。

ES 原生 org.apache.lucene.index.ConcurrentMergeScheduler#wrapForMerge 段文件合并源码如下，有 RateLimit 限制。

  public Directory wrapForMerge(OneMerge merge, Directory in) {
    Thread mergeThread = Thread.currentThread();
    if (!MergeThread.class.isInstance(mergeThread)) {
      throw new AssertionError("wrapForMerge should be called from MergeThread. Current thread: "
          + mergeThread);
    }

    // Return a wrapped Directory which has rate-limited output.
    RateLimiter rateLimiter = ((MergeThread) mergeThread).rateLimiter;
    return new FilterDirectory(in) {
      @Override
      public IndexOutput createOutput(String name, IOContext context) throws IOException {
        ensureOpen();

        // This Directory is only supposed to be used during merging,
        // so all writes should have MERGE context, else there is a bug 
        // somewhere that is failing to pass down the right IOContext:
        assert context.context == IOContext.Context.MERGE: "got context=" + context.context;
        
        // Because rateLimiter is bound to a particular merge thread, this method should
        // always be called from that context. Verify this.
        assert mergeThread == Thread.currentThread() : "Not the same merge thread, current="
          + Thread.currentThread() + ", expected=" + mergeThread;

        return new RateLimitedIndexOutput(rateLimiter, in.createOutput(name, context));
      }
    };
  }

自定义的 MergeScheduler 示例如下：

IndexWriterConfig config = new IndexWriterConfig(null);
// CustomConcurrentMergeScheduler extends ConcurrentMergeScheduler 取消了 RateLimit 限制。
CustomConcurrentMergeScheduler mergeScheduler = new CustomConcurrentMergeScheduler();
mergeScheduler.setDefaultMaxMergesAndThreads(true);
mergeScheduler.disableAutoIOThrottle();
config.setMergeScheduler(mergeScheduler);
//...其它代码
//创建 IndexWriter 用于索引文件合并、段文件合并
IndexWriter writer = new IndexWriter(dir, config);

总结一下，本文主要讲了2个核心点，基于这2点实现离线 ES 索引的快速构建。

基于ES 原生的 NodeClient 类写入 doc，而不是 HTTP restful api。
基于 Lucene IndexWriter#addIndices 合并索引文件，然后再自定义 MergeScheduler 合并段文件

段文件合并时，即可以采用：MMapDirectory 打开索引文件所在的目录，也可以使用：NIOFSDirectory 打开索引文件的目录。这里我咨询了下 chatgpt，它给出的合并流程如下：

读源码，不懂的咨询 gpt 效率非常高（比 google 搜索效果好）

创建MMapDirectory实例

import org.apache.lucene.store.MMapDirectory;
import java.nio.file.Paths;

MMapDirectory mmapDir = new MMapDirectory(Paths.get("/path/to/index"));

创建IndexWriter配置

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.MergePolicy;
import org.apache.lucene.index.TieredMergePolicy;

//
IndexWriterConfig iwc = new IndexWriterConfig(null);

设置合并策略

TieredMergePolicy mergePolicy = new TieredMergePolicy();
mergePolicy.setMaxMergeAtOnce(10);
mergePolicy.setSegmentsPerTier(10);
iwc.setMergePolicy(mergePolicy);

创建IndexWriter

IndexWriter writer = new IndexWriter(mmapDir, iwc);

执行合并

writer.forceMerge(1);

关闭IndexWriter

writer.close();

最后，段文件合并，其实也是整个离线索引构建过程中比较耗时的一环，基于 MMapDirectory 或者 NIOFSDirectory 打开索引文件进行 segment merge 谁更优呢？

MMapDirectory使用内存映射文件的方式来读取索引。这种方式可以利用操作系统的虚拟内存和页缓存，对于读取密集型的操作通常有较好的性能。在有大量可用内存和较新的操作系统上，MMapDirectory通常可以提供更快的读取速度，这可能会加速合并过程中的读取操作。
NIOFSDirectory使用Java的FileChannel来读取索引。这种方式是基于Java的NIO包，可以提供稳定的文件I/O性能。NIOFSDirectory不依赖于操作系统的虚拟内存，因此在处理大型索引时可能更加稳定。

到底哪种好？还是自己测试吧。

posted @ 2024-01-29 23:36 大熊猫同学阅读(133) 评论(0) 编辑收藏举报

刷新页面返回顶部

hapjin

ES 离线索引构建

公告