elastic search（一）

今天我们来介绍下文本搜索引擎elastic search。想必大家都经历过MIS系统搜索框输入后很慢才能看到返回结果的场景（甚至是界面卡住现象）吧，根本原因是：

用专业点的术语是本次查询涉及到的数据量太大，并且产生了全表扫描，导致的慢查询。

好比是下面这个sql：select id, keyword from keywords where keyword like '%中缀模糊搜索%'

因为没法用上索引，导致了全表扫描，性能就一下子一落千丈。

原因清楚了，那怎么解决呢？为什么百度搜索这么快呢？下面我们就介绍一款性能强悍的文本搜索引擎，对，是文本搜索引擎，不是关系型数据库。

Elastic search：基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口操作ES，也可以利用Java API。

它的应用场景有很多，最核心的场景，就是文本搜索，大数据量的文本检索。

关心技术的同学，百度百度，肯定发现了个现象，就是es（elastic search的缩写）总是会拿来和solr对比，这两个什么样的差别，看下图：

solr依赖zookeeper，也就是说部署时需要多部署3个zk节点，当存在更新行为时查询较慢（相对es）

一般都会根据实际情况来选型，这里我们直接略过选型部分，直接定位在es介绍上。

下面，不得不提的是es以及solr的共同基础：lucene，20年前的产物。

lucene是个倒排序搜索引擎，底层建立在文件系统之上，配合分词器建立倒排索引，如下图：

这里的索引原理可解释如下过程：

输入：你好，东泽国际物流有限公司。

分词器会将输入分解，比如分解为：你好东泽国际物流有限公司

然后，存储引擎会建立索引，比如：

当再输入：你好，东泽科技。

则变为：

看吧，右面的索引是根据单词来检索，进而得出关联文档id的，我们也称为倒排序索引。

刚才，里面有些故意隐藏的点，如切词怎么切的？答：有很多分词器来做切词+转换词元，中英文、数字都有。

lucene分词器

StopAnalyzer
StandardAnalyzer
WhitespaceAnalyzer
SimpleAnalyzer
CJKAnalyzer
KeywordAnalyzer
SmartChineseAnalyzer
IKAnalyzer

上面一堆分词器就是用来切切切词的，比如这句话：你好，china！不同的分词器不同的效果，如StandardAnalyzer会切出下面这效果：你好 c h i n a；然后相应的索引就会把这些切出的字符放上去，当然这效果不太好。

总之，用哪种分词器看实际的应用场景。

后一个是匹配度问题，专业术语叫评分，比如下面这个搜索排序（基于评分来决定排序）：

lucene里用的是tf idf算法（词频算法）以及改进的BM25算法，主要原理都是建立在tf idf上

算法上的请参考这个：https://my.oschina.net/stanleysun/blog/1617727

主要思路就是对输入的关键字先分词，比如分出了2个单词后，分别计算tf idf乘积，最后再针对每篇doc进行∑求和，根据分别的sum排序。

到这里，lucene基础部分算是介绍完了。

后续将正式进入es分布式篇。

posted @ 2021-06-24 18:17 McKay 阅读(253) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

前后合璧，架构完整。
A2D科技，服务社会。

A2D Framework
Rule Engine(规则引擎) Sword(WCF终结者) Sword(.net core 2.0) SplitTable(分表DAO)

昵称： McKay
园龄： 15年9个月
粉丝： 403
关注： 33

+加关注

2025年3月

日

一

二

三

四

五

六

McKay

elastic search（一）

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论