Elasticsearch的基础知识

概要

Elasticsearch（下面简称ES）是一个基于Lucene（一个开源全文搜索引擎）构建的开源、分布式可扩展的实时搜索和分析引擎。作为目前最流行的开源搜索引擎，Elasticsearch 在同领域几乎没有竞争对手。维基百科、Stack Overflow、Github 等系统都采用它。

在 GitHub 上搜索时，ES 可实现代码级搜索与高亮显示；在网上购物时，它会为用户推荐喜欢的商品；下班打车回家时，它可以定位附近的乘客和司机，帮平台优化调度。

此外，Elasticsearch 还被广泛运用于大数据近实时分析，包括日志分析、指标监控、信息安全等多个领域。它不仅可以探索海量结构化、非结构化数据，按需创建可视化报表，对监控数据设置报警阈值，还能通过使用机器学习，自动识别异常状况。

上手 Elasticsearch 也很容易，花几分钟设置好开发环境，就能在成百上千台服务器上实现 PB 级的数据处理了。Elasticsearch 把操作都封装成了 HTTP 的 API，我们只要给 Elasticsearch 发送 HTTP 请求就行。

一、基础知识

1、反向索引

反向索引又叫倒排索引，是根据文章内容中的关键字建立索引。搜索引擎的原理就是建立反向索引。

2、索引（Index）、类型（Type）、文档（Document）

1）ES中的索引是存放数据的地方，可以理解为mysql中的一个数据库

2）类型是用来定义数据结构的，可以认为是mysql中的一张表。类型是通过 Mapping 来定义每个字段的类型。

3）文档就是最终的数据，可以认为一个文档就是一条记录。文档以json形式描述一行数据。

3、Elasticsearch分布式原理

Elasticsearch 会对数据进行切分，每个分片是数据的一个子集，同时每一个分片会保存多个副本，目的为了保证分布式环境下的高可用。

4、数据类型

1）查询给定时间段的数据：date

2）查询给定区间范围的数值类型数据：integer、long

3）查询给定区间范围的字符串类型数据：keyword、text

keyword和text的区别：Keyword 类型是不会分词的，直接根据字符串内容建立反向索引，text 类型在存入 Elasticsearch 的时候，会先分词，然后根据分词后的内容建立反向索引。

5、通过RESTful API来使用ES

1）增加

 1 PUT  /blogs/blog/1
 2 
 3 {
 4 
 5     "title": "es info",
 6 
 7     "content": "about es",
 8 
 9     "author": "jack",
10 
11     "year":2018
12 
13 }

请求成功后返回：

 1 {
 2 
 3   "_index": "blogs",
 4 
 5   "_type": "blog",
 6 
 7   "_id": "1",
 8 
 9   "_version": 1,
10 
11   "result": "created",
12 
13   "_shards": {
14 
15     "total": 2,
16 
17     "successful": 1,
18 
19     "failed": 0
20 
21   },
22 
23   "created": true
24 
25 }

View Code

说明：_id是主键ID，这个主键ID是唯一的，可以在插入数据时指定ID，也可以由ES系统自动生成。不过自动生成，HTTP的操作需要使用POST而不是PUT。系统自动生成的_id对应的值是唯一的随机字符串。

2）修改

PUT  /blogs/blog/1

请求成功后返回：

 1 {
 2 
 3   "_index": "blogs",
 4 
 5   "_type": "blog",
 6 
 7   "_id": "1",
 8 
 9   "_version": 2,
10 
11   "result": "updated",
12 
13   "_shards": {
14 
15     "total": 1,
16 
17     "successful": 1,
18 
19     "failed": 0
20 
21   },
22 
23   "_seq_no": 2,
24 
25   "_primary_term": 7
26 
27 }

View Code

注意：有这几个字段的内容发生了变化

"_version" : 2,
"result" : "updated",
"created" : false

3）查找

GET /blogs/blog/1

请求成功后返回：

 1 {
 2 
 3   "_index": "blogs",
 4 
 5   "_type": "blog",
 6 
 7   "_id": "1",
 8 
 9   "_version": 2,
10 
11   "found": true,
12 
13   "_source": {
14 
15     "title": "es info",
16 
17     "content": "about es",
18 
19     "author": "tom",
20 
21     "year": 2020
22 
23   }
24 
25 }

View Code

说明：_version是ES文档的版本号

作用：我们在修改数据时，可以传入一个版本号。这样当在一个客户端读取和更新文档的间隔中，有另外客户端更新了数据。如果这个客户端的更新操作传入了版本号（前面读取的版本号），这时因为传入的版本号和当期实际的版本号不一致，就会操作失败。这样就防止可能的数据冲突。这也是ES采用乐观并发控制（OCC）机制的体现。

乐观并发控制：乐观并发是一个应用于事务系统（关系型数据库管理系统与软件内存事务）的并发控制方法。

OCC通常用于低数据争夺的环境下。当冲突较少时，事务的完成将会没有管理锁的消耗，并且不需要令事务等待其他的事务锁释放，其结果导致比其他的并发控制方法有着更高的吞吐量。

加入版本号进行更新，只需在url后面加上version参数，如：

PUT   /blogs/blog/1?version=2

4）删除

通过DELETE操作，可以删除ES中的数据

DELETE  /blogs/blog/1

请求成功后返回：

 1 {
 2 
 3   "_index": "blogs",
 4 
 5   "_type": "blog",
 6 
 7   "_id": "1",
 8 
 9   "_version": 4,
10 
11   "result": "deleted",
12 
13   "_shards": {
14 
15     "total": 1,
16 
17     "successful": 1,
18 
19     "failed": 0
20 
21   },
22 
23   "_seq_no": 3,
24 
25   "_primary_term": 7
26 
27 }

View Code

5）搜索

1 POST /_search
2 {
3     "query": {
4         "query_string": {
5             "query": "zk"
6         }
7     }
8 }

请求成功后返回：

 1 {
 2 
 3   "took": 46,
 4 
 5   "timed_out": false,
 6 
 7   "_shards": {
 8 
 9     "total": 35,
10 
11     "successful": 35,
12 
13     "skipped": 0,
14 
15     "failed": 0
16 
17   },
18 
19   "hits": {
20 
21     "total": 1,
22 
23     "max_score": 0.2876821,
24 
25     "hits": [
26 
27       {
28 
29         "_index": "blogs",
30 
31         "_type": "blog",
32 
33         "_id": "2",
34 
35         "_score": 0.2876821,
36 
37         "_source": {
38 
39           "title": "zk info",
40 
41           "content": "about zk",
42 
43           "author": "jack",
44 
45           "year": 2018
46 
47         }
48 
49       }
50 
51     ]
52 
53   }
54 
55 }

View Code

上面的搜索是搜索整个json数据中的信息，我们也可以只搜索指定json字段中的内容。如：

POST /_search
{
    "query": {
        "query_string": {
            "query": "jack",
            "fields": ["author"]
        }
    }
}

二、典型应用

1. 用 Elasticsearch 搭建 ELK 系统，也就是日志分析系统。其中包括Elasticsearch、 Logstash（日志收集系统）、Kibana（数据可视化平台）。

2. ELKB也被广泛应用，Beats是ELK 协议栈的新成员，一个轻量级开源数据搜集器架构，基于 Logstash-Forwarder 源代码开发，是对它的替代。beats 就能读取数据，迅速发送到 Logstash 进行解析，亦或直接发送到 Elasticsearch 进行集中式存储和分析。Beats目前有开发了很多版本的数据采集器。

参考链接：

https://www.jianshu.com/p/099e27d6cd91

https://developer.51cto.com/art/201904/594615.htm

posted @ 2020-07-10 10:41 欢乐豆123 阅读(264) 评论(0) 收藏举报

刷新页面返回顶部

欢乐豆123

Elasticsearch的基础知识

Elasticsearch的基础知识

公告