摘要: 一、为什么有了FOR压缩算法后还要使用RBM压缩算法 FOR压缩算法适用于间隔比较小的倒排表id,如1,2,3,5,8.......。间隔较小的数字在进行间隔相减的时候得出的结果也会比较小,这时在使用FOR压缩算法的时候能有效控制存储空间。 但是,假如遇到间隔较大的倒排表id,如1000,62101 阅读全文
posted @ 2022-02-08 18:57 showMeTheCodes 阅读(244) 评论(0) 推荐(0) 编辑
摘要: 一、倒排索引的数据结构 倒排表的压缩算法:FOR、RBM 词项索引的检索原理:FST 二、FOR压缩算法 如上图,假设倒排表中最理想的一行id为1,2,3......100 W个连续数字 图Ⅰ:若没有使用FOR压缩算法,则有100W个int类型的数字,1数字=4字节,则有400W字节,约占4M存储空 阅读全文
posted @ 2022-02-08 16:27 showMeTheCodes 阅读(417) 评论(0) 推荐(0) 编辑
摘要: 一、什么是搜索引擎 全文搜索引擎:如谷歌、百度、搜狗 垂直搜索引擎:有明确搜索目的搜索行为。各大电商网站、站内搜索、视频网站等 ES不等于搜索引擎,es除了搜索引擎功能之外还有聚合分析、大数据存储的功能 ES是一个分布式的查询、分析、存储引擎 二、mysql索引能解决大数据检索的问题吗? 1、索引往 阅读全文
posted @ 2022-02-08 08:27 showMeTheCodes 阅读(73) 评论(0) 推荐(0) 编辑