01 2025 档案

差异编码(Delta Encoding) 和 字典压缩(Dictionary Encoding)
摘要:1. 差异编码(Delta Encoding):倒排列表中可能会采用差异编码,即存储相邻文档 ID 之间的差值,而不是直接存储每个文档 ID,这样可以进一步压缩空间。 2. 字典压缩(Dictionary Encoding):对于倒排列表中的文档 ID,可以使用字典进行压缩,进一步减少存储需求。 举 阅读全文

posted @ 2025-01-21 20:11 zhangkele 阅读(34) 评论(0) 推荐(0) 编辑

倒排索引中 “term” 词项 为什么要转换成 id
摘要:当我们提到 存储压缩 时,尤其是在处理 倒排索引(Inverted Index)时,主要的目标是减少存储空间和提高查询效率。通过将 词项映射到ID 和 使用位图代替传统的倒排列表,我们能有效减少存储空间的占用,尤其是在处理具有大量重复词项的数据时。下面我将详细解释 词项映射到ID 的收益,并通过具体 阅读全文

posted @ 2025-01-21 18:01 zhangkele 阅读(15) 评论(0) 推荐(0) 编辑

索引压缩算法 New PForDelta 简介以及使用 SIMD 技术的优化
摘要:1. 背景:搜索引擎与索引压缩 在搜索引擎或类似需要对海量文档进行检索的系统中,通常会构建倒排索引(Inverted Index)。为降低存储成本、减少 I/O 并提升检索速度,对倒排索引所包含的大量整数序列进行压缩是一种行之有效的手段。 • 目标:在确保解压速度的同时,尽量获得更好的压缩率。 • 阅读全文

posted @ 2025-01-04 14:23 zhangkele 阅读(61) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示