Elasticsearch技术解析与实战（一）基础概念及环境搭建

序言

ES数据架构的主要概念（与关系数据库Mysql对比）

集群(cluster)

　　集群，一个ES集群由一个或多个节点（Node）组成，每个集群都有一个cluster name作为标识。一下是我们的4节点集群。

节点(node)

　　节点，一个ES实例就是一个node，一个机器可以有多个实例，所以并不能说一台机器就是一个node，大多数情况下每个node运行在一个独立的环境或虚拟机上。

索引(index)

　　索引，即一系列documents的集合。

类型(type)

分片(shard)

了解分布式或者学过mysql分库分表的应该对分片的概念比较熟悉，ES里面的索引可能存储大量数据，这些数据可能会超出单个节点的硬件限制。

为了解决这个问题，ES提供了将索引细分为多个碎片的功能，这就是分片。

这里咱们可以简单去理解，在创建索引时，只需要咱们定义所需的碎片数量就可以了，其实每个分片都可以看作是一个完全功能性和独立的索引，可以托管在集群中的任何节点上。

分片有什么好处和注意事项呢？

通过分片技术，咱们可以水平拆分数据量，同时它还支持跨碎片（可能在多个节点上）分布和并行操作，从而提高性能/吞吐量；

ES可以完全自动管理分片的分配和文档的聚合来完成搜索请求，并且对用户完全透明；

主分片数在索引创建时指定，后续只能通过Reindex修改，但是较麻烦，一般不进行修改。

一个拥有两个主分片一份副本的索引可以在四个节点中横向扩展。

分片是什么？

　　简单来讲就是咱们在ES中所有数据的文件块，也是数据的最小单元块，整个ES集群的核心就是对所有分片的分布、索引、负载、路由等达到惊人的速度。　

　　实列场景：

　　假设 IndexA 有2个分片，我们向 IndexA 中插入10条数据 (10个文档)，那么这10条数据会尽可能平均的分为5条存储在第一个分片，剩下的5条会存储在另一个分片中。

　　和主流关系型数据库的表分区的概念有点类似，如果你比较熟悉关系型数据库的话。

创建 IndexName 索引时候，在 Mapping 中可以如下设置分片 (curl)

PUT indexName
{
    "settings": {
        "number_of_shards": 5
    }
}

Elastic 官方文档建议：一个 Node 最好不要多于三个 shards。注意索引建立后，分片个数是不可以更改的。

在进行历史数据入库的时候，建议先在settings中将备份设为0，refresh关闭来提升索引效率，数据入库完毕可恢复需要值。

"settings": {
    "number_of_shards": 5,
    "number_of_replicas": 0,
    "refresh_interval": -1
  }

分片好处

　　1.分片，ES是分布式搜索引擎，每个索引有一个或多个分片，索引的数据被分配到各个分片上，相当于一桶水用了N个杯子装

　　2.分片有助于横向扩展，N个分片会被尽可能平均地（rebalance）分配在不同的节点上（例如你有2个节点，4个主分片(不考虑备份)，那么每个节点会分到2个分片，后来你增加了2个节点，那么你这4个节点上都会有1个分片，这个过程叫relocation，ES感知后自动完成)

　　3.分片是独立的，对于一个Search Request的行为，每个分片都会执行这个Request.

　　4.每个分片都是一个Lucene Index，所以一个分片只能存放 Integer.MAX_VALUE - 128 = 2,147,483,519 个docs。

分片个数

建议：（仅参考）

　　1、每一个分片数据文件小于30GB

　　2、每一个索引中的一个分片对应一个节点

　　3、节点数大于等于分片数

副本(replica)

　　1.复制，可以理解为备份分片，相应地有primary shard（主分片）

　　2.主分片和备分片不会出现在同一个节点上（防止单点故障），默认情况下一个索引创建5个分片一个备份（即5primary+5replica=10个分片）

　　3.如果你只有一个节点，那么5个replica都无法分配（unassigned），此时cluster status会变成Yellow。

通过调整副本数来均衡节点负载

　　事实上节点 3 持有两个副本分片，然而没有主分片并不重要。副本分片与主分片做着相同的工作；它们只是扮演着略微不同的角色。没有必要确保主分片均匀地分布在所有节点中。

　　从这个图我发现两个Node节点，5个shard分片，1个replica备份，没毛病啊，每个节点就是有完整的信息：

　　ok，这里是3个node，3个shard，1份replica，发现了吗，这边的话每个节点并没有完整的数据，但是任意两个节点有完整的数据即使一台机器宕机，剩下两个节点依然可以提供完整的数据，依然满足高可用。

结论
　　发现规律了吗？其实很简单如果每个机器上要有完整的数据，需要满足分片数*节点数的总分片数量，当然，这里的总分片数量包含了主分片和副本分片。因此，我们得出一个公式：副本数replica =（shardNum*nodeNum-shardNum）/shardNum。当replica大于此值时，满足要求。

资料

https://www.cnblogs.com/bbgs-xc/p/14334769.html

使用Docker安装ElasticSearch和可视化界面Kibana【图文教学】

https://www.elastic.co/guide/cn/elasticsearch/guide/current/_analytics.html

https://www.cnblogs.com/52fhy/p/9826356.html

https://blog.csdn.net/yzhujue/article/details/53128813?utm_source=blogxgwz0

http://www.lanrenkaifa.com/post/57

IK分词

https://github.com/medcl/elasticsearch-analysis-ik/releases

ELK下载地址

https://www.elastic.co/cn/downloads/past-releases

https://www.yiibai.com/elasticsearch/elasticsearch-getting-start.html

posted @ 2017-09-08 19:31 ~沐风阅读(581) 评论(0) 收藏举报

刷新页面返回顶部

沐风