01_ElasticSearch介绍

全文检索：#

数据分类：#

结构化数据：固定格式，有限长度比如mysql存的数据
非结构化数据：不定长，无固定格式比如邮件，word文档，日志半结构化数据：前两者结合比如xml，html

搜索分类：#

结构化数据搜索：使用关系型数据库
非结构化数据搜索：顺序扫描、全文检索

设想一个关于搜索的场景，假设我们要搜索一首诗句内容中带“前”字的古诗：

用传统关系型数据库和ES 实现会有什么差别？

如果用像 MySQL 这样的 RDBMS 来存储古诗的话，我们应该会去使用这样的 SQL 去查询：

select name from poems where content like "%前%"

这种我们称为顺序扫描法，需要遍历所有的记录进行匹配。不但效率低，而且不符合我们搜索时的期望，比如我们在搜索“ABCD"这样的关键词时，通常还希望看到"A","AB","CD",“ABC”的搜索结果。

什么是全文检索：#

全文检索是指：

通过一个程序扫描文本中的每一个单词，针对单词建立索引，并保存该单词在文本中的位置、以及出现的次数。

用户查询时，通过之前建立好的索引来查询，将索引中单词对应的文本位置、出现的次数返回给用户，因为有了具体文本的位置，所以就可以将具体内容读取出来了。

搜索原理简单概括的话可以分为这么几步：

　　1、内容爬取，停顿词过滤比如一些无用的像"的"，“了”之类的语气词/连接词

　　2、内容分词，提取关键词

　　3、根据关键词建立倒排索引

　　4、用户输入关键词进行搜索

倒排索引#

索引就类似于目录，平时我们使用的都是索引，都是通过主键定位到某条数据，那么倒排索引呢，刚好相反，数据对应到主键。

以一个博客文章的内容为例:

正排索引（正向索引）#

倒排索引（反向索引）#

假如我们有一个站内搜索的功能，通过某个关键词来搜索相关的文章，那么这个关键词可能出现在标题中，也可能出现在文章内容中，那我们将会在创建或修改文章的时候，建立一个关键词与文章的对应关系表，这种索引我们可以称之为倒排索引。

like %java设计模式% 分词为：java 设计模式

简单理解：正向索引是通过key找value，反向索引则是通过value找key。ES底层在检索时底层使用的就是倒排索引。

ElasticSearch简介：#

ElasticSearch介绍：#

ElasticSearch（简称ES）是一个分布式、RESTful 风格的搜索和数据分析引擎，是用Java开发并且是当前最流行的开源的企业级搜索引擎，能够达到近实时搜索，稳定，可靠，快速，安装使用方便。

客户端支持Java、.NET（C#）、PHP、Python、Ruby等多种语言。

官方网站: https://www.elastic.co/

下载地址：https://www.elastic.co/cn/downloads/past-releases#elasticsearch

搜索引擎排名：#

参考网站：https://db-engines.com/en/ranking/search+engine

起源——Lucene#

基于Java语言开发的搜索引擎库类

创建于1999年，2005年成为Apache顶级开源项目

Lucene具有高性能、易扩展的优点

Lucene的局限性︰

　　只能基于Java语言开发

　　类库的接口学习曲线陡峭

　　原生并不支持水平扩展

Elasticsearch的诞生#

Elasticsearch是构建在Apache Lucene之上的开源分布式搜索引擎。

　　2004年 Shay Banon 基于Lucene开发了Compass

　　2010年 Shay Banon重写了Compass，取名Elasticsearch

　　　　支持分布式，可水平扩展

　　　　降低全文检索的学习曲线，可以被任何编程语言调用

Elasticsearch 与 Lucene 核心库竞争的优势在于：

完美封装了 Lucene 核心库，设计了友好的 Restful-API，开发者无需过多关注底层机制，直接开箱即用。

分片与副本机制，直接解决了集群下性能与高可用问题。

ES Server进程 3节点 raft (奇数节点)

数据分片 -》lucene实例分片和副本数 1个ES节点可以有多个lucene实例。也可以指定一个索引的多个分片。

ElasticSearch版本特性

5.x新特性#

Lucene 6.x，性能提升，默认打分机制从TF-IDF改为BM 25

支持Ingest节点/ Painless Scripting / Completion suggested支持/原生的Java REST客户端

Type标记成deprecated，支持了Keyword的类型

性能优化：

　　内部引擎移除了避免同一文档并发更新的竞争锁，带来15% -20%的性能提升

　　Instant aggregation,支持分片，上聚合的缓存

　　新增了Profile API

6.x新特性#

Lucene 7.x

新功能：

　　跨集群复制(CCR)

　　索引生命周期管理

　　SQL的支持

更友好的的升级及数据迁移：

　　在主要版本之间的迁移更为简化，体验升级

　　全新的基于操作的数据复制框架，可加快恢复数据

性能优化：

　　有效存储稀疏字段的新方法，降低了存储成本

　　在索引时进行排序，可加快排序的查询性能

7.x新特性#

Lucene 8.0

重大改进-正式废除单个索引下多Type的支持

7.1开始，Security 功能免费使用

ECK - Elasticseach Operator on Kubernetes

新功能：

　　New Cluster coordination

　　Feature——Complete High Level REST Client

　　Script Score Query

性能优化：

　　默认的Primary Shard数从5改为1,避免Over Sharding

　　性能优化，更快的Top K

8.x新特性#

Rest API相比较7.x而言做了比较大的改动（比如彻底删除_type）

默认开启安全配置

　　存储空间优化：对倒排文件使用新的编码集，对于keyword、match_only_text、text类型字段有效，有3.5%的空间优化提升，对于新建索引和segment自动生效。

　　优化geo_point，geo_shape类型的索引（写入）效率：15%的提升。

　　技术预览版KNN API发布，（K邻近算法），跟推荐系统、自然语言排名相关。

https://www.elastic.co/guide/en/elasticstack/current/elasticsearchbreaking-changes.html

ElasticSearch vs Solr#

Solr 是第一个基于 Lucene 核心库功能完备的搜索引擎产品，诞生远早于 Elasticsearch。

当单纯的对已有数据进行搜索时，Solr更快。当实时建立索引时, Solr会产生io阻塞，查询性能较差, Elasticsearch具有明显的优势。

大型互联网公司，实际生产环境测试，将搜索引擎从Solr转到 Elasticsearch以后的平均查询速度有了50倍的提升。

总结：#

Solr 利用 Zookeeper 进行分布式管理，而Elasticsearch 自身带有分布式协调管理功能。

Solr 支持更多格式的数据，比如JSON、XML、CSV，而 Elasticsearch 仅支持json文件格式。

Solr 在传统的搜索应用中表现好于 Elasticsearch，但在处理实时搜索应用时效率明显低于 Elasticsearch。

Solr 是传统搜索应用的有力解决方案，但 Elasticsearch更适用于新兴的实时搜索应用。

Elastic Stack介绍#

在Elastic Stack之前我们听说过ELK，ELK分别是Elasticsearch，Logstash，Kibana这三款软件在一起的简称，在发展的过程中又有新的成员Beats的加入，就形成了ElasticStack。

在Elastic Stack生态圈中Elasticsearch作为数据存储和搜索，是生态圈的基石，Kibana在上层提供用户一个可视化及操作的界面，Logstash和Beat可以对数据进行收集。在上图的右侧X-Pack部分则是Elastic公司提供的商业项目。

指标分析/日志分析：

ElasticSearch应用场景：#

站内搜索

日志管理与分析

大数据分析

应用性能监控

机器学习

国内现在有大量的公司都在使用 Elasticsearch，包括携程、滴滴、今日头条、饿了么、360安全、小米、vivo等诸多知名公司。除了搜索之外，结合Kibana、Logstash、Beats，Elastic Stack还被广泛运用在大数据近实时分析领域，包括日志分析、指标监控、信息安全等多个领域。它可以帮助你探索海量结构化、非结构化数据，按需创建可视化报表，对监控数据设置报警阈值，甚至通过使用机器学习技术，自动识别异常状况。

通用数据处理流程：#

posted @ 2023-06-23 02:09 1640808365 阅读(40) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 03_ElasticSearch基本使用

· 04_ElasticSearch高级查询Query DSL

· Elasticsearch介绍

· 第1章 Elasticsearch 概述

· 狂神说学习笔记：ElasticSearch

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· .NET10 - 预览版1新功能体验（一）

公告

昵称： 1640808365
园龄： 5年8个月
粉丝： 9
关注： 6

+加关注

2025年3月

日

一

二

三

四

五

六

Loading

YYJ-Blog | 业精于勤，荒于嬉。

01_ElasticSearch介绍

全文检索：#

数据分类：#

搜索分类：#

什么是全文检索：#

倒排索引#

正排索引（正向索引）#

倒排索引（反向索引）#

ElasticSearch简介：#

ElasticSearch介绍：#

搜索引擎排名：#

起源——Lucene#

Elasticsearch的诞生#

5.x新特性#

6.x新特性#

7.x新特性#

8.x新特性#

ElasticSearch vs Solr#

总结：#

Elastic Stack介绍#

ElasticSearch应用场景：#

通用数据处理流程：#

公告

常用链接

随笔分类

随笔档案