ES倒排索引

Elasticsearch之-倒排索引

倒排索引源于实际应用中需要根据属性的值来查找记录，这种索引表中的每一个项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而成为倒排索引。带有倒排索引的文件我们称之为倒排索引文件，简称倒排文件

例如有如下三个文件：

文件A：通过Python django搭建网站

文件B：通过Python scrapy爬取网站数据

文件C：scrapy-redis分布式爬虫

现在我们要查询，带有Python的文件，正常是对每个文件进行遍历，每个文件遍历一次，如果文件特别大，每个文件有一亿个字符，总共有一亿各文件，每个我们都要遍历，非常消耗资源

在存储文件之前，先对文件进行分析，将文件分词，对分词建立索引，例如下面一句话

1 今天是星期天我们出去玩

2 明天是星期天，放假

3 今天天气很晴朗

4 xxx

5 他们出去玩了

实际上es在做存储的时候，更详细，如下表

今天出现在哪个文章，出现的位置和出现的次数

1 大小写转换问题，如python和Python应该为同一个词

2 词干抽取，looking和look应该处理为同一个词

3 分词，如屏蔽系统是屏蔽和系统两个词还是为屏蔽系统一个词

4 倒排索引文件过大，需要压缩编码

posted @ 2020-07-15 22:29 Jeff的技术栈阅读(515) 评论(0) 收藏举报

刷新页面返回顶部