集群
-
海量数据存储问题:将索引库从逻辑上拆分为N个分片(shard),存储到多个节点
-
单点故障问题:将分片数据在不同节点备份(replica )
-
-
<font color="red">节点(node)</font> :集群中的一个 Elasticearch 实例
-
<font color="red">分片(shard)</font>:索引可以被拆分为不同的部分进行存储,称为分片。在集群环境下,一个索引的不同分片可以拆分到不同的节点中
解决问题:数据量太大,单点存储量有限的问题。
此处,我们把数据分成3片:shard0、shard1、shard2
-
-
副本分片(Replica shard)每个主分片可以有一个或者多个副本,数据和主分片一样。
为了在高可用和成本间寻求平衡,我们可以这样做:
-
首先对数据分片,存储到不同节点
-
然后对每个分片进行备份,放到对方节点,完成互相备份
这样可以大大减少所需要的服务节点数量,如图,我们以3分片,每个分片备份一份为例:
-
node0:保存了分片0和1
-
node1:保存了分片0和2
-
node2:保存了分片1和2
-
master节点:对CPU要求高,但是内存要求第
-
data节点:对CPU和内存要求都高
-
coordinating节点:对网络带宽、CPU要求高
职责分离可以让我们根据不同节点的需求分配不同的硬件去部署。而且避免业务之间的互相干扰。
一个典型的es集群职责划分如图:
例如一个集群中,主节点与其它节点失联:
此时,node2和node3认为node1宕机,就会重新选主:
当网络恢复后,因为集群中有两个master节点,集群状态的不一致,出现脑裂的情况:
例如:3个节点形成的集群,选票必须超过 (3 + 1) / 2 ,也就是2票。node3得到node2和node3的选票,当选为主。node1只有自己1票,没有当选。集群中依然只有1个主节点,没有出现脑裂。
-
参与集群选主
-
主节点可以管理集群状态、管理分片信息、处理创建和删除索引库的请求
data节点的作用是什么?
-
数据的CRUD
-
路由请求到其它节点
-
合并查询到的结果,返回给用户
-
_routing默认是文档的id
-
算法与分片数量有关,因此索引库一旦创建,分片数量不能修改!
新增文档的流程如下:
解读:
-
1)新增一个id=1的文档
-
2)对id做hash运算,假如得到的是2,则应该存储到shard-2
-
3)shard-2的主分片在node3节点,将数据路由到node3
-
4)保存文档
-
5)同步给shard-2的副本replica-2,在node2节点
-
6)返回结果给coordinating-node节点
-
scatter phase:分散阶段,coordinating node会把请求分发到每一个分片
-
gather phase:聚集阶段,coordinating node汇总data node的搜索结果,并处理为最终结果集返回给用户
2)突然,node1发生了故障:
宕机后的第一件事,需要重新选主,例如选中了node2:
node2成为主节点后,会检测集群监控状态,发现:shard-1、shard-0没有副本节点。因此需要将node1上的数据迁移到node2、node3: