秒懂！5分钟图解 Elasticsearch 搜索原理，快速掌握全文检索技术！

合集 - 工具(20)

1.Moment.js、Day.js、Miment，日期时间库怎么选？2024-11-08 2.Parallax.js：让智能设备视差效果更智能、更自然2024-11-09 3.Lottie动画全攻略：硬核还原100%页面动画效果2024-11-10 4.用particles.js，让你的网站背景特效瞬间脱颖而出，惊艳所有人2024-11-12 5.字节跳动出大招！IconPark图标库，自定义图标，好用到停不下来！2024-11-16 6.比肩Element和Ant Design，PrimeVue同样优秀，你不可不知的UI框架新星！2024-11-18 7.ChartCube图表快速上手指南，轻松打造专业图表，简单到不可思议！2024-11-18 8.Vue地图开发新利器：Vue Baidu Map，轻松对接，效率翻倍！2024-11-18 9.尤雨溪都在推荐的Naive UI，Vue组件库的新选择，好用到爆！2024-11-19 10.【uni-app必备】uView UI框架，多端开发神器，让开发更简单、更高效！2024-11-22 11.Driver.js：轻量级用户引导插件，小而美的界面，让用户体验飞起来！2024-11-25 12.Ionicons图标库：让网页栩栩生辉，Ionic Framework的经典之作，图标库新标杆！2024-11-29 13.Clipboard.js：一个被157317个项目疯抢的JS开源库2024-12-08 14.探“锁”源头：synchronized、偏向锁与锁膨胀的秘密！2024-12-18 15.解"锁"疑惑：偏向锁为什么不是锁？锁升级又是什么？何时禁用偏向锁和轻量级锁？重量级锁怎么回事？2024-12-19

16.秒懂！5分钟图解 Elasticsearch 搜索原理，快速掌握全文检索技术！2024-12-21

17.2025年GitHub Copilot免费激活，周年庆典福利大放送！01-03 18.【深度解析】DDD领域驱动设计，分层架构秘籍大公开！让你的设计更上一层楼!01-04 19.AI编程工具怎么选？GitHub Copilot、AI Assistant与Cursor，谁是你的最佳拍档？01-10 20.【免费福利】腾讯云+DeepSeek：DeepSeek-V3/R1免费，羊毛党速来02-20

大家好，我是程序视点的小二哥!今天我们继续来聊聊ElasticSearch！

前言

先自上而下，后自底向上的介绍ElasticSearch的底层工作原理，试图回答以下问题：

为什么我的搜索 _foo-bar_ 无法匹配_foo-bar_？
为什么增加更多的文件会压缩索引（Index）？
为什么ElasticSearch占用很多内存？

图解ElasticSearch

云上的集群

集群里的盒子

云里面的每个白色正方形的盒子代表一个节点——Node。

节点之间

在一个或者多个节点直接，多个绿色小方块组合在一起形成一个ElasticSearch的索引。

索引里的小方块

在一个索引下，分布在多个节点里的绿色小方块称为分片——Shard。

Shard＝Lucene Index

一个ElasticSearch的Shard本质上是一个Lucene Index。

Lucene是一个Full Text 搜索库（也有很多其他形式的搜索库），ElasticSearch是建立在Lucene之上的。接下来的故事要说的大部分内容实际上是ElasticSearch如何基于Lucene工作的。

图解Lucene

Mini索引——segment

在Lucene里面有很多小的segment，我们可以把它们看成Lucene内部的mini-index。

Segment内部

有着许多数据结构

Inverted Index
Stored Fields
Document Values
Cache

最最重要的Inverted Index

Inverted Index主要包括两部分：

一个有序的数据字典Dictionary（包括单词Term和它出现的频率）。
与单词Term对应的Postings（即存在这个单词的文件）。

当我们搜索的时候，首先将搜索的内容分解，然后在字典里找到对应Term，从而查找到与搜索相关的文件内容。

查询“the fury”

自动补全（AutoCompletion-Prefix）

如果想要查找以字母“c”开头的字母，可以简单的通过二分查找（Binary Search）在Inverted Index表中找到例如“choice”、“coming”这样的词（Term）。

昂贵的查找

如果想要查找所有包含“our”字母的单词，那么系统会扫描整个Inverted Index，这是非常昂贵的。

在此种情况下，如果想要做优化，那么我们面对的问题是如何生成合适的Term。

问题的转化

对于以上诸如此类的问题，我们可能会有几种可行的解决方案：

suffix -> xiffus *如果我们想以后缀作为搜索条件，可以为Term做反向处理。

(60.6384, 6.5017) -> u4u8gyykk对于GEO位置信息，可以将它转换为GEO Hash。
123 -> {1-hundreds, 12-tens, 123}对于简单的数字，可以为它生成多重形式的Term。

解决拼写错误

一个Python库为单词生成了一个包含错误拼写信息的树形状态机，解决拼写错误的问题。

Stored Field字段查找

当我们想要查找包含某个特定标题内容的文件时，Inverted Index就不能很好的解决这个问题，所以Lucene提供了另外一种数据结构Stored Fields来解决这个问题。本质上，Stored Fields是一个简单的键值对key-value。默认情况下，ElasticSearch会存储整个文件的JSON source。

Document Values为了排序，聚合

即使这样，我们发现以上结构仍然无法解决诸如：排序、聚合、facet，因为我们可能会要读取大量不需要的信息。所以，另一种数据结构解决了此种问题：Document Values。这种结构本质上就是一个列式的存储，它高度优化了具有相同类型的数据的存储结构。

为了提高效率，ElasticSearch可以将索引下某一个Document Value全部读取到内存中进行操作，这大大提升访问速度，但是也同时会消耗掉大量的内存空间。总之，这些数据结构Inverted Index、Stored Fields、Document Values及其缓存，都在segment内部。

搜索发生时

搜索时，Lucene会搜索所有的segment然后将每个segment的搜索结果返回，最后合并呈现给客户。Lucene的一些特性使得这个过程非常重要：