06-Elasticsearch之-倒排索引

Elasticsearch之-倒排索引

一倒排索引是什么

倒排索引源于实际应用中需要根据属性的值来查找记录，这种索引表中的每一个项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而成为倒排索引。带有倒排索引的文件我们称之为倒排索引文件，简称倒排文件

二举例

例如有如下三个文件：

文件A：通过Python django搭建网站

文件B：通过Python scrapy爬取网站数据

文件C：scrapy-redis分布式爬虫

现在我们要查询，带有Python的文件，正常是对每个文件进行遍历，每个文件遍历一次，如果文件特别大，每个文件有一亿个字符，总共有一亿各文件，每个我们都要遍历，非常消耗资源

在存储文件之前，先对文件进行分析，将文件分词，对分词建立索引，例如下面一句话

1 今天是星期天我们出去玩

2 明天是星期天，放假

3 今天天气很晴朗

4 xxx

5 他们出去玩了

关键词	文章
今天	文章1，文章3
星期天	文章1，文章2
出去玩	文章5，文章1

实际上es在做存储的时候，更详细，如下表

关键词	文章
今天	(文章1,<2，10>,2) (文章3,<8>,1)
星期天	(文章2,<12,25,100>,3)
出去玩	(文章5,<11,24,89>,3)(文章1,<8，19>,2)

今天出现在哪个文章，出现的位置和出现的次数

三倒排索引待解决的问题

1 大小写转换问题，如python和Python应该为同一个词

2 词干抽取，looking和look应该处理为同一个词

3 分词，如屏蔽系统是屏蔽和系统两个词还是为屏蔽系统一个词

4 倒排索引文件过大，需要压缩编码

作者：liuqingzheng

出处：https://www.cnblogs.com/liuqingzheng/p/16002590.html

版权：本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。

posted @ 2022-03-14 01:23 刘清政阅读(244) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 00-ElasticSearch之-介绍

· 07-Elasticsearch之-索引操作

· Elasticsearch之倒排索引、索引操作

· Elasticsearch的倒排索引

· ES elasticsearch 的倒排索引

阅读排行：
· 25岁的心里话
· 闲置电脑爆改个人服务器（超详细） #公网映射 #Vmware虚拟网络编辑器
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· 零经验选手，Compose 一天开发一款小游戏！
· 一起来玩mcp_server_sqlite，让AI帮你做增删改查！！

刘清政的博客

06-Elasticsearch之-倒排索引

Elasticsearch之-倒排索引

一倒排索引是什么

二举例

三倒排索引待解决的问题

公告

随笔分类

随笔档案

文章分类

阅读排行榜

评论排行榜

最新评论

刘清政的博客

06-Elasticsearch之-倒排索引

Elasticsearch之-倒排索引

一 倒排索引是什么

二 举例

三 倒排索引待解决的问题

公告

随笔分类

随笔档案

文章分类

阅读排行榜

评论排行榜

最新评论

一倒排索引是什么

二举例

三倒排索引待解决的问题