ElasticSearch 入门篇

一 . 什么是 ElasticSearch

Elaticsearch,简称为ES,是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;
本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。
ES也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,
但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。

Elasticsearch是面向文档的,这意味着它可以存储整个对象或文档。
然而它不仅仅是存储,还会索引(index)每个文档的内容使之可以被搜索。
在Elasticsearch中,你可以对文档进行索引、搜索、排序、过滤。
      
      Elasticsearch比传统关系型数据库如下:

          Relational DB ‐> Databases ‐> Tables ‐> Rows ‐> Columns
          Elasticsearch ‐> Indices ‐> Types ‐> Documents ‐> Fields

1. 应用场景

搜索引擎,文本信息的分析... 根据关键字查找文章。

2. ES 和 Solr

1、Solr 利用Zookeeper 进行分布式管理,而Elasticsearch 自身带有分布式协调管理功能。
2、Solr支持更多格式的数据,比如JSON、 XML、CSV,而Elasticsearch仅支持json文件格式。
3、Solr 在传统的搜索应用中表现好于Elasticsearch, 但在处理实时搜索应用时效率明显低于E1asticsearch。
4、Solr 是传统搜索应用的有力解决方案,但Elasticsearch更适用于新兴的实时搜索应用。

3. IK分词器

设置ES使用IK分词器,可对中文有很好的分词效果。

4. 使用中的基础概念

  1. index索引
    一个索引就是一个拥有几分相似特征的文档的集合。比如说,你可以有一个客户数据的索引,另一个产品目录的索引,还有一个订单数据的索引。一个索引由一个名字来标识(必须全部是小写字母的),并且当我们要对对应于这个索引中的文档进行索引、搜索、更新和删除的时候,都要使用到这个名字。在一个集群中,可以定义任意多的索引。可类比mysql中的数据库

  2. type类型
    在一个索引中,你可以定义一种或多种类型。一个类型是你的索引的一个逻辑上的分类/分区,其语义完全由你来定。通常,会为具有一组共同字段的文档定义一个类型。比如说,我们假设你运营一个博客平台并且将你所有的数据存储到一个索引中。在这个索引中,你可以为用户数据定义一个类型,为博客数据定义另一个类型,当然,也可以为评论数据定义另一个类型。 可类比mysql中的表

  3. Filed字段
    相当于是数据表的字段,对文档数据根据不同属性进行的分类标识 。

  4. 映射mapping
    mapping是处理数据的方式和规则方面做一些限制,如某个字段的数据类型、默认值、分析器、是否被索引等等,这些都是映射里面可以设置的,其它就是处理es里面数据的一些使用规则设置也叫做映射,按着最优规则处理数据对性能提高很大,因此才需要建立映射,并且需要思考如何建立映射才能对性能更好。相当于mysql中的创建表的过程,设置主键外键等等

  5. document文档
    一个文档是一个可被索引的基础信息单元。比如,你可以拥有某一个客户的文档,某一个产品的一个文档,当然,也可以拥有某个订单的一个文档。文档以JSON(Javascript Object Notation)格式来表示,而JSON是一个到处存在的互联网数据交互格式。在一个index/type里面,你可以存储任意多的文档。注意,尽管一个文档,物理上存在于一个索引之中,文档必须被索引/赋予一个索引的type。 插入索引库以文档为单位,类比与数据库中的一行数据

  6. 集群cluster
    一个集群就是由一个或多个节点组织在一起,它们共同持有整个的数据,并一起提供索引和搜索功能。一个集群由 一个唯一的名字标识,这个名字默认就是“elasticsearch”。这个名字是重要的,因为一个节点只能通过指定某个集 群的名字,来加入这个集群。

  7. 节点node
    一个节点是集群中的一个服务器,作为集群的一部分,它存储数据,参与集群的索引和搜索功能。和集群类似,一 个节点也是由一个名字来标识的,默认情况下,这个名字是一个随机的漫威漫画角色的名字,这个名字会在启动的 时候赋予节点。这个名字对于管理工作来说挺重要的,因为在这个管理过程中,你会去确定网络中的哪些服务器对 应于Elasticsearch集群中的哪些节点。
    一个节点可以通过配置集群名称的方式来加入一个指定的集群。默认情况下,每个节点都会被安排加入到一个叫 做“elasticsearch”的集群中,这意味着,如果你在你的网络中启动了若干个节点,并假定它们能够相互发现彼此, 它们将会自动地形成并加入到一个叫做“elasticsearch”的集群中。
    在一个集群里,只要你想,可以拥有任意多个节点。而且,如果当前你的网络中没有运行任何Elasticsearch节点, 这时启动一个节点,会默认创建并加入一个叫做“elasticsearch”的集群。

  8. 分片和复制 shards&replicas
    一个索引可以存储超出单个结点硬件限制的大量数据。比如,一个具有10亿文档的索引占据1TB的磁盘空间,而任一节点都没有这样大的磁盘空间;或者单个节点处理搜索请求,响应太慢。为了解决这个问题,Elasticsearch提供了将索引划分成多份的能力,这些份就叫做分片。当你创建一个索引的时候,你可以指定你想要的分片的数量。每个分片本身也是一个功能完善并且独立的“索引”,这个“索引”可以被放置到集群中的任何节点上。分片很重要,主要有两方面的原因: 1)允许你水平分割/扩展你的内容容量。 2)允许你在分片(潜在地,位于多个节点上)之上进行分布式的、并行的操作,进而提高性能/吞吐量。

    至于一个分片怎样分布,它的文档怎样聚合回搜索请求,是完全由Elasticsearch管理的,对于作为用户的你来说,这些都是透明的。

    在一个网络/云的环境里,失败随时都可能发生,在某个分片/节点不知怎么的就处于离线状态,或者由于任何原因消失了,这种情况下,有一个故障转移机制是非常有用并且是强烈推荐的。为此目的,Elasticsearch允许你创建分片的一份或多份拷贝,这些拷贝叫做复制分片,或者直接叫复制。

    复制之所以重要,有两个主要原因: 在分片/节点失败的情况下,提供了高可用性。因为这个原因,注意到复制分片从不与原/主要(original/primary)分片置于同一节点上是非常重要的。扩展你的搜索量/吞吐量,因为搜索可以在所有的复制上并行运行。总之,每个索引可以被分成多个分片。一个索引也可以被复制0次(意思是没有复制)或多次。一旦复制了,每个索引就有了主分片(作为复制源的原来的分片)和复制分片(主分片的拷贝)之别。分片和复制的数量可以在索引创建的时候指定。在索引创建之后,你可以在任何时候动态地改变复制的数量,但是你事后不能改变分片的数量。

    默认情况下,Elasticsearch中的每个索引被分片5个主分片和1个复制,这意味着,如果你的集群中至少有两个节点,你的索引将会有5个主分片和另外5个复制分片(1个完全拷贝),这样的话每个索引总共就有10个分片。

5.底层原理和相关组件

组件:Lucene -- 高性能,多功能的搜索引擎库

      1)只能在Java项目中使用,并且要以jar包的方式直接集成项目中
      2)使用非常复杂-创建索引和搜索索引代码繁杂
      3)不支持集群环境-索引数据不同步(不支持大型项目)
      4)索引数据如果太多就不行,索引库和应用所在同一个服务器,共同占用硬盘,共用空间.

6. 什么是ElasticSearch集群

ElasticSearch 集群是一组连接在一起的一个或多个 Elasticsearch 节点实例。每个集群都有一个共同的集群名称作为标识。集群内的节点可以协同工作,共享数据并提供故障转移和扩展性

ES集群是一个 P2P类型(使用 gossip 协议)的分布式系统,除了集群状态管理以外,其他所有的请求都可以发送到集群内任意一台节点上,这个节点可以自己找到需要转发给哪些节点,并且直接跟这些节点通信。所以,从网络架构及服务配置上来说,构建集群所需要的配置极其简单。

在 Elasticsearch 2.0 之前,无阻碍的网络下,所有配置了相同 cluster.name 的节点都自动归属到一个集群中。

2.0 版本之后,基于安全的考虑避免开发环境过于随便造成的麻烦,从 2.0 版本开始,默认的自动发现方式改为了单播(unicast)方式。
配置里提供几台节点的地址,ES 将其视作gossip router 角色,借以完成集群的发现。
由于这只是 ES 内一个很小的功能,所以 gossip router 角色并不需要单独配置,每个 ES 节点都可以担任。所以,采用单播方式的集群,各节点都配置相同的几个节点列表作为 router即可。

集群中节点数量没有限制,一般大于等于2个节点就可以看做是集群了。一般处于高性能及高可用方面来
虑一般集群中的节点数量都是3个及3个以上 .

二 . 如何安装与使用ElasticSearch

Linux 和 Windows 类似,需要java支持,获取ES资源包,修改配置文件,启动

1.安装ElasticSearch(步骤)

  1. 查询一下ES和jdk的匹配情况,配置好java环境。
  2. 获取资源包
  3. 修改配置文件
// 1. 修改conf\jvm.option文件
将#-Xms2g                                  
  #-Xmx2g修改成为:
-Xms340m
-Xmx340m
否则因为虚拟机内存不够无法启动

// 2. 修改conf\elasticsearch.yml文件
elasticsearch-5.6.8\config\elasticsearch.yml中末尾加入:
http.cors.enabled: true
http.cors.allow-origin: "*"
network.host: 127.0.0.1
目的是使ES支持跨域请求
  1. 启动
    windows下运行elasticsearch.bat
  2. 可以使用head图形化插件
    head : https://github.com/mobz/elasticsearch-head3
    
    安装head需要安装node和grunt:
    (下载慢的可以使用镜像)
    Node:
    https://nodejs.org/en/download/    需配置环境变量
    
	grunt:
	npm install ‐g grunt‐cli

head目录下执行:

> npm install
> grunt server
  1. 使用IK分词器
    1. 下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases
    2. 解压,将解压后的elasticsearch文件夹拷贝到elasticsearch的plugins下(修改文件夹名,方便维护)
    3. 重启ElasticSearch
  2. 搭建ElasticSearch集群
    1. 准备3个以上的ElasticSearch副本
    2. 修改\comf\elasticsearch.yml配置文件:
#Node节点1:
		http.cors.enabled: true
		http.cors.allow-origin: "*"		
		#此节点信息
		cluster.name: my-elasticsearch
		node.name: node-1
		network.host: 127.0.0.1
		http.port: 9201
		transport.tcp.port: 9301
		
		#设置集群自动发现机器ip集合
		discovery.zen.ping.unicast.hosts: ["127.0.0.1:9301","127.0.0.1:9302","127.0.0.1:9303"]
#Node节点2:
		http.cors.enabled: true
		http.cors.allow-origin: "*"
		#此节点信息
		cluster.name: my-elasticsearch
		node.name: node-2
		network.host: 127.0.0.1
		http.port: 9202
		transport.tcp.port: 9302
		
		#设置集群自动发现机器ip集合
		discovery.zen.ping.unicast.hosts: ["127.0.0.1:9301","127.0.0.1:9302","127.0.0.1:9303"]
#Node节点3:
		http.cors.enabled: true
		http.cors.allow-origin: "*"
		#此节点信息
		cluster.name: my-elasticsearch
		node.name: node-3
		network.host: 127.0.0.1
		http.port: 9203
		transport.tcp.port: 9303
		
		#设置集群自动发现机器ip集合
		discovery.zen.ping.unicast.hosts: ["127.0.0.1:9301","127.0.0.1:9302","127.0.0.1:9303"]
  1. linux安装
#在ES资源包目录
tar -zxf elasticsearch-x.x.x.tar.gz
#根据需要修改
#     conf\jvm.option 文件

		#将   -Xms2g                                  
		#     -Xmx2g   修改成为:
		-Xms300m
		-Xmx300m
# 匹配系统的可用内存,专用服务器可设置更大
# 修改conf\elasticsearch.yml

http.cors.enabled: true
http.cors.allow-origin: "*"
network.host: 127.0.0.1

#  一般在跨域系统中开启

开启ES:ES一般都是远程连接,在linux中需要使用普通用户以用户名+密码的方式访问

# 没有普通用户的,可以创建一个
useradd 用户名 -p 密码
chown -R 用户名:用户名 /usr/local/elasticsearch/*
# 切换到 用户名下
su 用户名
# 开启ES:
./elasticsearch
# 后台运行ES
# 使用nohup
nohup ./bin/elasticsearch&

2.操作ElasticSearch

主要有以下几种方式操作ElasticSearch
1. 使用elasticsearch-head插件
2. 使用elasticsearch提供的Restful接口直接访问
3. 使用elasticsearch提供的API进行访问

不同方式,执行的逻辑是一样的。Elasticsearch 使用 HTTP 协议来进行操作,可以使用任何支持 HTTP 协议的工具,如 PostmancURL,来与 Elasticsearch 进行交互。

三 . 查询语句

DSL,支持query和filter

1. 模板

  • 创建索引:
PUT /my-index
  • 删除索引:
DELETE /my-index
  • 添加文档:
POST /my-index/_doc/
{
    "field1": "value1",
    "field2": "value2"
}
  • 获取文档:
GET /my-index/_doc/document_id
  • 更新文档:
POST /my-index/_doc/document_id/_update
{
    "doc": {
        "field1": "new_value1"
    }
}
  • 删除文档:
DELETE /my-index/_doc/document_id
  • 搜索文档:
GET /my-index/_search
{
    "query": {
        "match": {
            "field1": "value1"
        }
    }
}

2. 示例

  • 创建索引
PUT http://localhost:9200/my-index
  • 添加文档
POST http://localhost:9200/my-index/_doc/
{
    "name": "John Doe",
    "age": 30,
    "email": "john.doe@example.com"
}
  • 获取文档
GET http://localhost:9200/my-index/_doc/document_id
  • 更新文档
POST http://localhost:9200/my-index/_doc/document_id/_update
{
    "doc": {
        "age": 31
    }
}
  • 删除文档
DELETE http://localhost:9200/my-index/_doc/document_id
  • 搜索文档
GET http://localhost:9200/my-index/_search
{
    "query": {
        "match": {
            "name": "John Doe"
        }
    }
}

四 . 整合SpringBoot

1. 准备

  • 1.依赖
<dependency>  
    <groupId>org.elasticsearch.client</groupId>  
    <artifactId>elasticsearch-rest-high-level-client</artifactId>  
</dependency>

老版本(已标记为过期)
	<dependency>            
		<groupId>org.springframework.boot</groupId>
		<artifactId>spring-boot-starter-data-elasticsearch</artifactId>        
    </dependency>
  • 2.创建相关配置类
@Configuration
public class ESConfig {
 
    
    @Bean
    public RestHighLevelClient restHighLevelClient(){
        //设定IP
        RestHighLevelClient client = new RestHighLevelClient(
                RestClient.builder(new HttpHost("127.0.0.1",9200,"http")));
        return client;
    }
}
  • 3.获得一个客户端
//创建一个客户端
@Autowired
private RestHighLevelClient client;

2. 操作

1. 创建索引
    void contextLoadss() throws Exception{
        //创建索引创建对象,并设置索引名
        CreateIndexRequest createIndexRequest = new CreateIndexRequest("es-test");
        //根据索引对象信息创建索引
        CreateIndexResponse createIndexResponse = client.indices().create(createIndexRequest, RequestOptions.DEFAULT);
        //判断索引是否创建成功---输出为true则创建成功
        System.out.println(createIndexResponse.isAcknowledged());
    }
2. 其他类
//创建索引
CreateIndexRequest
//删除索引
DeleteIndexRequest
//判断索引是否存在
GetIndexRequest
//添加文档
IndexRequest
//查询文档  或者 判断文档是否存在
GetRequest
//修改文档
UpdateRequest
//批量添加
BulkRequest
//删除文档
DeleteRequest
//复杂查询
SearchSourceBuilder
posted @ 2023-04-18 17:41  NetUSA  阅读(28)  评论(0编辑  收藏  举报