随笔分类 - ES二期
摘要:一、前缀树原理 依次输入:msb、msn、msbtech、wltech会产生如上图数据结构 1、如果出现可以公用的元素,则另开分支将不可以公用的部分进行存储,最后一个节点标记为绿色 2、在查找时按照从头到尾的顺序进行查找,只有每个节点都符合并且最后一个字母为绿色final节点时代表查询成功 3、若没
阅读全文
摘要:一、为什么有了FOR压缩算法后还要使用RBM压缩算法 FOR压缩算法适用于间隔比较小的倒排表id,如1,2,3,5,8.......。间隔较小的数字在进行间隔相减的时候得出的结果也会比较小,这时在使用FOR压缩算法的时候能有效控制存储空间。 但是,假如遇到间隔较大的倒排表id,如1000,62101
阅读全文
摘要:一、倒排索引的数据结构 倒排表的压缩算法:FOR、RBM 词项索引的检索原理:FST 二、FOR压缩算法 如上图,假设倒排表中最理想的一行id为1,2,3......100 W个连续数字 图Ⅰ:若没有使用FOR压缩算法,则有100W个int类型的数字,1数字=4字节,则有400W字节,约占4M存储空
阅读全文
摘要:一、什么是搜索引擎 全文搜索引擎:如谷歌、百度、搜狗 垂直搜索引擎:有明确搜索目的搜索行为。各大电商网站、站内搜索、视频网站等 ES不等于搜索引擎,es除了搜索引擎功能之外还有聚合分析、大数据存储的功能 ES是一个分布式的查询、分析、存储引擎 二、mysql索引能解决大数据检索的问题吗? 1、索引往
阅读全文

浙公网安备 33010602011771号