分布式搜索 - 什么是倒排索引

这个问题是近段时间被问的最多的，理清思路就更好理解了，下面贴出来，也配合表格辅助理解。

其实很多搜索引擎都是基于倒排索引，比如luncene，solr以及elasticsearch

聊倒排搜索之前先来看看正排索引，正排其实就是数据库表，他通过id和数据进行关联，如下：

我们可以通过搜索id，来获得相应的数据，也能删除数据。你买了一本书，书的目录其实也是正排搜索。

假设现在我要搜苹果俩字，那么他会对这张表格中每一行的数据做匹配，去查找一下，是否包含苹果这两个字，从第一条匹配到最后一条，如果一张表中数据量不多，几万，十几万，那么问题不大，但是一旦数据量有上百万，上千万，那么全表扫描这种的搜索性能就会有影响。

其次，这个时候我想搜索苹果iPhone，那么我们无法把这词汇拆开再到数据库去搜索。

与正排相比是反着来的，他会把文档内容进行分词，比如“苹果公司发布iPhone”是一个文档数据，当我们把他存入到搜索引擎中去的时候，会有一个文档id，这个文档id就类似于数据库主键。但是这文档存储的时候和数据库不一样，他会进行一个分词，参照上面的表格，分词后的结果如下：

每一个词汇都会和文档id关联起来，可以根据词汇来找到所有出现的id列表，如下：

假设现在我要搜索iPhone，如果是数据库搜索，假设有1亿条数据，那么会匹配1亿次，全表扫描。最后再把数据返回出来。

如果是搜索引擎，那么有可能第一次就把所有文档数据给查出来，当然也有可能是第N次，当然他肯定要比数据库的搜索效率更高。如图中位置，他会直接把1001，1003两个文档返回。

可能会有同学会问，数据库和搜索引擎都是1000万数据，搜索的词汇在搜索引擎中正好是第1000万条，那么会不会慢，其实这个肯定会比数据库更快，数据库要匹配是一个文本中的内容和关键词匹配，而搜索引擎是直接把关键字做匹配，效率肯定后者更快。

目前博主已经开通知识星球，会提供更多的优质的视频与文章内容产出和服务，目前最低价，待试运营过后会有所上浮，如果有兴趣的话可以加入一下噢~

posted @ 2023-08-01 13:29 风间影月阅读(103) 评论(0) 收藏举报

刷新页面返回顶部