2025 年 1月随笔档案 - zhangkele

01 2025 档案

差异编码（Delta Encoding）和字典压缩（Dictionary Encoding）

摘要：1. 差异编码（Delta Encoding）：倒排列表中可能会采用差异编码，即存储相邻文档 ID 之间的差值，而不是直接存储每个文档 ID，这样可以进一步压缩空间。 2. 字典压缩（Dictionary Encoding）：对于倒排列表中的文档 ID，可以使用字典进行压缩，进一步减少存储需求。举阅读全文

posted @ 2025-01-21 20:11 zhangkele 阅读(34) 评论(0) 推荐(0) 编辑

倒排索引中 “term” 词项为什么要转换成 id

摘要：当我们提到存储压缩时，尤其是在处理倒排索引（Inverted Index）时，主要的目标是减少存储空间和提高查询效率。通过将词项映射到ID 和使用位图代替传统的倒排列表，我们能有效减少存储空间的占用，尤其是在处理具有大量重复词项的数据时。下面我将详细解释词项映射到ID 的收益，并通过具体阅读全文

posted @ 2025-01-21 18:01 zhangkele 阅读(15) 评论(0) 推荐(0) 编辑

索引压缩算法 New PForDelta 简介以及使用 SIMD 技术的优化

摘要：1. 背景：搜索引擎与索引压缩在搜索引擎或类似需要对海量文档进行检索的系统中，通常会构建倒排索引（Inverted Index）。为降低存储成本、减少 I/O 并提升检索速度，对倒排索引所包含的大量整数序列进行压缩是一种行之有效的手段。 • 目标：在确保解压速度的同时，尽量获得更好的压缩率。 • 阅读全文

posted @ 2025-01-04 14:23 zhangkele 阅读(61) 评论(0) 推荐(0) 编辑

zhangkele

01 2025 档案

差异编码（Delta Encoding）和字典压缩（Dictionary Encoding）

倒排索引中 “term” 词项为什么要转换成 id

索引压缩算法 New PForDelta 简介以及使用 SIMD 技术的优化

导航

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论