ElasticSearch

视频学习地址：https://www.bilibili.com/video/BV1LF411j7rm/?p=8&spm_id_from=pageDriver&vd_source=12d06e602c3462c026d1a4781241f2d4

倒排表：有存储就会有数据量大的问题,怎么去解决数据量大的问题：1.压缩大数据变成小数据(压缩算法) 2.如何存数据让查询更快(数据结构)

如图 posting LIst 匹配到了100w条的数据

倒排表算法_Frame Of Referenct压缩算法：适用稠密数组

倒排表存储结构为有序数组所以现在有了100w的int, 1个int类型占用4个字节 100W就是3.8MB的数据这还只是匹配一个如果100w的原始文本每个文本差不多相同所以拆分出来的词项匹配都相同

每一个原始数据都会被拆分成词项如果原始数据为100Wt条因为拆分里面的词可能会导致倒排表的数据比原始表还多

倒排表算法_RoaringBitmap压缩算法：适用稀疏数组数组的差值比较大

如图得到的倒排表词典数组是这样的就用RBM算法

一个int类型 32位整形 32bit =2的16次方*2的16次方相乘 int的最大值不会超过2的32次方

FST的构建过程：https://www.bilibili.com/video/BV1LF411j7rm?p=11&spm_id_from=pageDriver&vd_source=12d06e602c3462c026d1a4781241f2d4

理解数据结构：前缀树和 FST有限状态转换机

Lucene字典原理：FST在Lucene的构建原理,：https://www.cnblogs.com/LBSer/p/4119841.html

posted @ 2022-11-15 17:02 12不懂3 阅读(28) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Redis_九大数据类型

· Myql索引篇+c#性能优化篇

· .Net使用ElasticSearch原理及入门

· ElasticSearch实践分享

· |NO.Z.00041|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V41|——|ELK.v41|原理剖析|数据结构.V1|

阅读排行：
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码，我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· 白话解读 Dapr 1.15：你的「微服务管家」又秀新绝活了
· 上周热点回顾（2.24-3.2）

历史上的今天：
2017-11-15 C# 远程图片下载到本地
2016-11-15 单元测试-NUint最基本使用详解

公告

昵称： 12不懂3
园龄： 8年8个月
粉丝： 23
关注： 8

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (77)

随笔档案 (129)

阅读排行榜

1. .NET技术要点总览(持续更新:2022.10.10)(20903)

评论排行榜

1. c#-委托，匿名方法，lambda表达的关系(2)

12不懂三

ElasticSearch

公告

搜索

常用链接

我的标签

随笔分类 (77)

随笔档案 (129)

阅读排行榜

评论排行榜

推荐排行榜

最新评论