elasticsearch reIndex

elasticsearch 基础 —— ReIndex
Reindex会将一个索引的数据复制到另一个已存在的索引，但是并不会复制原索引的mapping（映射）、shard（分片）、replicas（副本）等配置信息。

一、reindex的常用操作
1、reindex基础实现
    _reindex会将一个索引的快照数据copy到另一个索引，默认情况下存在相同的_id会进行覆盖（一般不会发生，除非是将两个索引的数据copy到一个索引中），可以使用以下命令将索引快照进行copy：

POST _reindex
{
  "source": {
    "index": "my_index_name"
  },
  "dest": {
    "index": "my_index_name_new"
  }
} 
2、version_type(冲突的解决)
    version_type属性默认值为internal，即当发生冲突后会覆盖之前的document，而当设置为external则会新生成一个另外的document，设置方式如下：

POST _reindex
{
  "source": {
    "index": "my_index_name"
  },
  "dest": {
    "index": "my_index_name_new",
    "version_type": "external"
  }
}
3、op_type和conflicts
  将op_type设置为create时，只会对发生不同的document进行reindex，（若定时机制的reindex则可以使用该方式只对最新的不存在的document进行reindex）。并且可以将conflicts属性设置为proceed,将冲突进行类似于continue的操作，设置方式如下：

POST _reindex
{
  "conflicts": "proceed",
  "source": {
    "index": "my_index_name"
  },
  "dest": {
    "index": "my_index_name_new",
    "op_type": "create"
  }
}
4、query的reindex
  对满足query条件的数据进行reindex操作，查询方式如下：

POST _reindex
{
  "source": {
    "index": "my_index_name",
    "type": "my_type_name",
    "query": {  // query的条件
      "term": {
        "user": "user_value"
      }
    }
  },
  "dest": {
    "index": "my_index_name_new"
  }
} 
5、多Index、Type数据的reindex
  可以将多个索引或类型的数据reindex到一个新的索引中，当然还可以使用query查询条件只对其中满足条件的部分数据进行reindx，若不设置冲突则还是默认会进行覆盖，只是不能保证相同ID的数据那个索引的数据会被先索引而被覆盖，设置方式如下：

POST _reindex
{
    "source": {
        "index": [
            "index_name_1",
            "index_name_1"
        ],
        "type": [
            "type_name_1",
            "type_name_2"
        ],
        "query": {//query的条件
            "term": {
                "user": "kimchy"
            }
        }
    },
    "dest": {
        "index": "all_together_index_name"
    }
}
6、size、sort（reindex的条数和排序控制）
POST _reindex
{
  "size": 10000,   // 值reindex按照sort排序后的size条数据
  "source": {
    "index": "my_index_name",
    "sort": { "date": "desc" } 
  },
  "dest": {
    "index": "my_index_name_new"
  }
}
7、source条件的reindex
  满足_source中包含数组field（字段）的数据才会被reindex，设置方式如下：

POST _reindex
{
  "source": {
    "index": "my_index_name",
    "_source": ["field_name_1", "field_name_2"]
  },
  "dest": {
    "index": "my_index_name_new"
  }
}
8、script类型的reindex
  与_update_by_query相同的是reindex也可以使用script，但是不同的是reindex可以修改源索引的数据信息，比如：

POST _reindex
{
  "source": {
    "index": "my_index_name"
  },
  "dest": {
    "index": "my_index_name_new",
    "version_type": "external"
  },
  "script": {
    "source": "if (ctx._source.foo == 'bar') {ctx._version++; ctx._source.remove('foo')}",
    "lang": "painless"
  }
}
  修改字段名称

  以下会在copy后将新索引中的flag字段名称修改为tag：

POST _reindex
{
  "source": {
    "index": "test"
  },
  "dest": {
    "index": "test2"
  },
  "script": {
    "source": "ctx._source.tag = ctx._source.remove(\"flag\")"
  }
}
  ctx.op 

    ctx.op只能等于noop或delete，等于其他值将报错，并且设置ctx的其他字段也会报错。设置为noop后不会有任何操作发生，设置为delete后会从目标索引中删除满足条件的数据，并且都会在response body中返回总条数。

谨慎操作字段

  _id

  _type

  _index

  _version

  _routing

  _parent

  这些字段都可以在reindex的操作中自行定义，但是需要谨慎操作。

  _version 字段可以设置为null或者在ctx的map中清除该字段，则reindex时效果都是没有copy其值，会引起数据的覆盖。

  而routing值可以设置为以下值：

        keep 默认值，会copy对应的路由值到新的index中。

        discard 将值设置为null

        =<some text> 将值设置为指定值，设置方式如下：

POST _reindex
{
    "source": {
        "index": "source",
        "query": {//设置查询条件
            "match": {
                "company": "cat"
            },
            "size": 100//满足条件的100条
        }
    },
    "dest": {
        "index": "dest",
        "routing": "=cat"//reindex到新的索引中使用该路由值
    }
}
二、远程reindex
  可以将远程（其他集群）的数据reindex到当前的集群环境中，但是需要设置当前集群的elsticsearch.yml配置中设置远程白名单列表，配置reindex.remote.whitelist属性，如otherhost:9200, another:9200, 127.0.10.*:9200, localhost:* 。只要环境可访问，则可以在任何版本之间对数据进行reindex，那么这也是版本es升级的数据迁移不错的选择。为了使发送到旧版本的弹性搜索的查询，查询参数被直接发送到远程主机，而不需要进行验证或修改。

    但是manual 和 automatic slicing.不能使用远程reindex，设置方式如下：

POST _reindex
{
  "source": {
    "remote": {
      "host": "http://otherhost:9200", // 远程es的ip和port列表
      "socket_timeout": "1m",
      "connect_timeout": "10s"  // 超时时间设置
    },
    "index": "my_index_name", // 源索引名称
    "query": {         // 满足条件的数据
      "match": {
        "test": "data"
      }
    }
  },
  "dest": {
    "index": "dest_index_name"  // 目标索引名称
  }
}
三、URL Parameters(reindex参数设置)
    Url可选参数有pretty,refresh, wait_for_completion, wait_for_active_shards, timeout, requests_per_second.

  1、refresh
        Index API的refresh只会让接收新数据的碎片被刷新，而reindex的refresh则会刷新所有索引。

  2、wait_for_completion
   将参数设置为false则会执行一些预执行检查，启动请求，然后返回一个任务，该任务可以用于任务api来取消或获得任务的状态。Es会在.tasks/task/${taskId}中创建记录ID。

  3、wait_for_active_shards
        在Bulk API的情况下，requests_per_second可以设置在继续索引之前，控制多少个碎片的拷贝数必须是活跃的。而timeout 超时控制每个写请求等待不可用的碎片等待的时间。

  4、requests_per_second
   每秒的请求数据，显然是节流控制参数，运行设置一个正整数，设置为-1表示不进行控制。

 

四、返回参数说明
{
  "took" : 639,    // 执行全过程使用的毫秒数
  "updated": 0,    // 成功修改的条数
  "created": 123,  // 成功创建的条数
  "batches": 1,    // 批处理的个数
  "version_conflicts": 2, // 版本冲突个数
  "retries": {     // 重试机制
    "bulk": 0,     // 重试的批个数
    "search": 0    // 重试的查询个数
  }
  "throttled_millis": 0, // 由于设置requests_per_second参数而sleep的毫秒数
  "failures" : [ ]  // 失败的数据
}
五 、Task API 操作
  1、使用Task API查看reindex的情况
GET _tasks?detailed=true&actions=*reindex
状态如下：可知道当前的taskId = 9620804

2、使用TaskId查看执行的状态 
{
  "nodes": {
    "_b5PSdInTVWaji9TUrWANg": {
      "name": "node-2",
      "transport_address": "192.168.10.15:9300",
      "host": "192.168.10.15",
      "ip": "192.168.10.15:9300",
      "roles": [
        "master",
        "data",
        "ingest"
      ],
      "attributes": {
        "ml.max_open_jobs": "10",
        "ml.enabled": "true"
      },
      "tasks": {
        "_b5PSdInTVWaji9TUrWANg:9620804": {
          "node": "_b5PSdInTVWaji9TUrWANg",
          "id": 9620804,
          "type": "transport",
          "action": "indices:data/write/reindex",
          "status": {
            "total": 216361,
            "updated": 0,
            "created": 30000,
            "deleted": 0,
            "batches": 31,
            "version_conflicts": 0,
            "noops": 0,
            "retries": {
              "bulk": 0,
              "search": 0
            },
            "throttled_millis": 0,
            "requests_per_second": -1,
            "throttled_until_millis": 0
          },
          "description": "reindex from [geleevr] to [geleevr_new]",
          "start_time_in_millis": 1511316869170,
          "running_time_in_nanos": 12077416434,
          "cancellable": true
        }
      }
    }
  }
}
GET /_tasks/taskId:9620804
可以查看total，updated，created，deleted等状态

3、使用Cancel Task API取消正在执行的reindex操作
   取消操作可能需要几秒钟的时间，取消方式如下：

POST _tasks/task_id:9620804/_cancel
4、使用Task API 重置reindex的节流限制
POST _reindex/task_id:9620804/_rethrottle?requests_per_second=-1
 六、并行化执行reindex操作
1、手动并行化
如下是两个slices的手动并行化reindex：

POST _reindex
{
  "source": {
    "index": "my_index_name",
    "slice": {   // 第一slice执行操作
      "id": 0,
      "max": 2
    }
  },
  "dest": {
    "index": "my_index_name_new"
  }
}
POST _reindex
{
  "source": {
    "index": "my_index_name",
    "slice": {   // 第二slice执行操作
      "id": 1,
      "max": 2
    }
  },
  "dest": {
    "index": "my_index_name_new"
  }
}
可以通过以下命令查看执行的结果：

GET _refresh
POST my_index_name/_search?size=0&filter_path=hits.total
结果如下：

{
  "hits": {
    "total": 120
  }
}
2、自动并行化
如下是自动划分的5个slices,只是将需要手动划分的过程自动化处理，将一个操作拆分为多个子操作并行化处理，其他查询方式等都一样，如下：

POST _reindex?slices=5&refresh
{
  "source": {
    "index": "my_index_name"
  },
  "dest": {
    "index": "my_index_name_new"
  }
} 
3、并行化处理的特性
        同样可以使用Task API查看每个slices的子请求（child）的task状态；

        获取每个slices请求的任务状态，只返回已完成的状态；

        这些子请求单独可寻址，比如取消操作和重新配置节流操作；

        对每个slices进行重新配置节流时，会将所有未完成的操作进行比例分配；

        对每个slices进行取消操作其他所有slices都会生效；

        每个请求只拥有全部数据的部分，并且每个文档的大小会不同，大文件基本分配均匀；

        并行化处理是使用requests_per_second 或size等，可能或导致分布不均匀；

        每个子请求可能获取到不同版本或快照的源索引数据。

4、slices数量设置要求
        数量不能过大，比如500可能出现CPU问题；

        查询性能角度看，设置slices为源索引的分片的倍数是比较合适的，一倍是最有效的；

        索引性能角度看，应该随着可用资源的数量线性地扩展；

        然而索引或查询性能是否在此过程中占据主导，取决于许多因素，比如重新索引的文档和重新索引的集群。

 

七、使用索引名称，reindex每天的数据
    如存在如下数据：

PUT metricbeat-2016.05.30/beat/1?refresh
{"system.cpu.idle.pct": 0.908}
 
PUT metricbeat-2016.05.31/beat/1?refresh
{"system.cpu.idle.pct": 0.105}
  可以执行如下reindex脚本：

POST _reindex
{
  "source": {
    "index": "metricbeat-*"
  },
  "dest": {
    "index": "metricbeat"
  },
  "script": {
    "lang": "painless",
    "source": "ctx._index = 'metricbeat-' + (ctx._index.substring('metricbeat-'.length(), ctx._index.length())) + '-1'"
  }
}
    再使用以下命令进行查看：

GET metricbeat-2016.05.30-1/_doc/1
GET metricbeat-2016.05.31-1/_doc/1
八、随机对源索引的一个子集合进行reindex
  下面是源索引的一个子集合进行索引的例子，说明：默认会按照_doc进行排序，而score不会起到任何的作用，除非如下提别对score排序进行指定，如下：

POST _reindex
{
  "size": 10,
  "source": {
    "index": "my_index_name",
    "query": {
      "function_score" : {
        "query" : { "match_all": {} },
        "random_score" : {}
      }
    },
    "sort": "_score"    
  },
  "dest": {
    "index": "random_my_index_name"
  }
}
九、reindex在项目中的使用
     以上是对reindex的基本概念和特性的学习，自己在项目中的使用场景：第一是在集群的es版本升级的情况下

1、es集群版本升级的数据迁移 或 将现有生产数据copy的dev等集群环境
        该部分可以在kibana的dev Tools下面直接使用remote reindex的脚本即可，但是需要设置当前集群的elsticsearch.yml配置中设置远程白名单列表，配reindex.remote.whitelist属性，如otherhost:9200, another:9200, 127.0.10.*:9200, localhost:* 。但是千万注意remote reindex不能使用并行化处理，即不能使用slices参数，这一点官方文档上没有明确指出，但是在使用的时候会报错，去掉即可。

POST _reindex?refresh
{
  "source": {
    "remote": {
      "host": "http://192.168.10.20:9200", 
      "socket_timeout": "1m",
      "connect_timeout": "10s"  
    },
    "index": "source_index_name",
    "query": {         
      "match_all": {}
    }
  },
  "dest": {
    "index": "destination_index_name",
    "version_type": "external",
    "op_type": "create"
  }
}

---------------------------------------------------------------------------------------------------------------------------
干货 | Elasticsearch Reindex性能提升10倍+实战
1、reindex的速率极慢，是否有办法改善？
以下问题来自社区：https://elasticsearch.cn/question/3782

问题1：reindex和snapshot的速率极慢，是否有办法改善？
reindex和snapshot的速率比用filebeat或者kafka到es的写入速率慢好几个数量级（集群写入性能不存在瓶颈），reindex/snapshot的时候CPU还是IO使用率都很低，是不是集群受什么参数限制了reindex和snapshot的速率？
reindex不管是跨集群还是同集群上都很慢，大约3~5M/s的索引速率，会是什么原因导致的？

问题2：数据量几十个G的场景下，elasticsearch reindex速度太慢，从旧索引导数据到新索引，当前最佳方案是什么？
2、Reindex简介
5.X版本后新增Reindex。Reindex可以直接在Elasticsearch集群里面对数据进行重建，如果你的mapping因为修改而需要重建，又或者索引设置修改需要重建的时候，借助Reindex可以很方便的异步进行重建，并且支持跨集群间的数据迁移。比如按天创建的索引可以定期重建合并到以月为单位的索引里面去。当然索引里面要启用_source。

POST _reindex
{
  "source": {
    "index": "twitter"
  },
  "dest": {
    "index": "new_twitter"
  }
}

3、原因分析
reindex的核心做跨索引、跨集群的数据迁移。
慢的原因及优化思路无非包括：

1）批量大小值可能太小。
需要结合堆内存、线程池调整大小；
2）reindex的底层是scroll实现，借助scroll并行优化方式，提升效率；
3）跨索引、跨集群的核心是写入数据，考虑写入优化角度提升效率。
4、Reindex提升迁移效率的方案
4.1 提升批量写入大小值
默认情况下，_reindex使用1000进行批量操作，您可以在source中调整batch_size。

POST _reindex
{
  "source": {
    "index": "source",
    "size": 5000
  },
  "dest": {
    "index": "dest",
    "routing": "=cat"
  }
}

批量大小设置的依据：

（1）使用批量索引请求以获得最佳性能。
批量大小取决于数据、分析和集群配置，但一个好的起点是每批处理5-15 MB。
注意，这是物理大小。文档数量不是度量批量大小的好指标。例如，如果每批索引1000个文档，:
1）每个1kb的1000个文档是1mb。
2）每个100kb的1000个文档是100 MB。
这些是完全不同的体积大小。
（2）逐步递增文档容量大小的方式调优。
1）从大约5-15 MB的大容量开始，慢慢增加，直到你看不到性能的提升。然后开始增加批量写入的并发性(多线程等等)。
2）使用kibana、cerebro或iostat、top和ps等工具监视节点，以查看资源何时开始出现瓶颈。如果您开始接收EsRejectedExecutionException，您的集群就不能再跟上了:至少有一个资源达到了容量。要么减少并发性，或者提供更多有限的资源(例如从机械硬盘切换到ssd固态硬盘)，要么添加更多节点。
4.2 借助scroll的sliced提升写入效率
Reindex支持Sliced Scroll以并行化重建索引过程。 这种并行化可以提高效率，并提供一种方便的方法将请求分解为更小的部分。

sliced原理（from medcl）
1）用过Scroll接口吧，很慢？如果你数据量很大，用Scroll遍历数据那确实是接受不了，现在Scroll接口可以并发来进行数据遍历了。
2）每个Scroll请求，可以分成多个Slice请求，可以理解为切片，各Slice独立并行，利用Scroll重建或者遍历要快很多倍。

slicing使用举例
slicing的设定分为两种方式：手动设置分片、自动设置分片。
手动设置分片参见官网。
自动设置分片如下：

POST _reindex?slices=5&refresh
{
  "source": {
    "index": "twitter"
  },
  "dest": {
    "index": "new_twitter"
  }
}

slices大小设置注意事项：
1）slices大小的设置可以手动指定，或者设置slices设置为auto，auto的含义是：针对单索引，slices大小=分片数；针对多索引，slices=分片的最小值。
2）当slices的数量等于索引中的分片数量时，查询性能最高效。slices大小大于分片数，非但不会提升效率，反而会增加开销。
3）如果这个slices数字很大(例如500)，建议选择一个较低的数字，因为过大的slices 会影响性能。

4.3 ES副本数设置为0
如果要进行大量批量导入，请考虑通过设置index.number_of_replicas来禁用副本：0。
主要原因在于：复制文档时，将整个文档发送到副本节点，并逐字重复索引过程。 这意味着每个副本都将执行分析，索引和潜在合并过程。
相反，如果您使用零副本进行索引，然后在提取完成时启用副本，则恢复过程本质上是逐字节的网络传输。 这比复制索引过程更有效。

PUT /my_logs/_settings
{
    "number_of_replicas": 1
}

4.4 增加refresh间隔
如果你的搜索结果不需要接近实时的准确性，考虑先不要急于索引刷新refresh。可以将每个索引的refresh_interval到30s。
如果正在进行大量数据导入，可以通过在导入期间将此值设置为-1来禁用刷新。完成后不要忘记重新启用它!
设置方法：

PUT /my_logs/_settings
{ "refresh_interval": -1 }

5、小结
实践证明，比默认设置reindex速度能提升10倍+。
遇到类似问题，多从官网、原理甚至源码的角度思考，逐步拆解分析。
只要思维不滑坡，办法总比问题多！

参考：
[1] Jest Reindex参考：http://t.cn/RDOyIc8
[2] 官网性能优化：http://t.cn/RDOyJqr
[3] 论坛讨论：http://t.cn/RDOya3a
posted @ 2020-04-15 09:51 virtual_daemon 阅读(2038) 评论(0) 收藏举报
刷新页面返回顶部
daemon

elasticsearch reIndex

公告