ElasticSearch
视频学习地址:https://www.bilibili.com/video/BV1LF411j7rm/?p=8&spm_id_from=pageDriver&vd_source=12d06e602c3462c026d1a4781241f2d4
倒排表:有存储 就会有数据量大的问题,怎么去解决数据量大的问题:1.压缩大数据变成小数据(压缩算法) 2.如何存数据让查询更快(数据结构)
如图 posting LIst 匹配到了100w条的数据
倒排表算法_Frame Of Referenct压缩算法 :适用稠密数组
倒排表存储结构为有序数组 所以现在有了100w的int, 1个int类型占用4个字节 100W就是3.8MB的数据 这还只是匹配一个 如果100w的原始文本 每个文本差不多相同 所以拆分出来的词项匹配都相同
每一个原始数据都会被拆分成词项 如果原始数据为100Wt条 因为拆分里面的词 可能会导致 倒排表的数据比原始表还多
倒排表算法_RoaringBitmap压缩算法:适用稀疏数组 数组的差值比较大
如图得到的倒排表 词典数组是这样的 就用RBM算法
一个int类型 32位整形 32bit =2的16次方*2的16次方相乘 int的最大值 不会超过2的32次方
FST的构建过程:https://www.bilibili.com/video/BV1LF411j7rm?p=11&spm_id_from=pageDriver&vd_source=12d06e602c3462c026d1a4781241f2d4
理解数据结构:前缀树和 FST有限状态转换机
Lucene字典原理:FST在Lucene的构建原理,:https://www.cnblogs.com/LBSer/p/4119841.html
本文来自博客园,作者:12不懂3,转载请注明原文链接:https://www.cnblogs.com/LZXX/p/16893043.html
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
2017-11-15 C# 远程图片下载到本地
2016-11-15 单元测试-NUint最基本使用详解