2025年1月21日

差异编码(Delta Encoding) 和 字典压缩(Dictionary Encoding)

摘要: 1. 差异编码(Delta Encoding):倒排列表中可能会采用差异编码,即存储相邻文档 ID 之间的差值,而不是直接存储每个文档 ID,这样可以进一步压缩空间。 2. 字典压缩(Dictionary Encoding):对于倒排列表中的文档 ID,可以使用字典进行压缩,进一步减少存储需求。 举 阅读全文

posted @ 2025-01-21 20:11 zhangkele 阅读(9) 评论(0) 推荐(0) 编辑

倒排索引中 “term” 词项 为什么要转换成 id

摘要: 当我们提到 存储压缩 时,尤其是在处理 倒排索引(Inverted Index)时,主要的目标是减少存储空间和提高查询效率。通过将 词项映射到ID 和 使用位图代替传统的倒排列表,我们能有效减少存储空间的占用,尤其是在处理具有大量重复词项的数据时。下面我将详细解释 词项映射到ID 的收益,并通过具体 阅读全文

posted @ 2025-01-21 18:01 zhangkele 阅读(13) 评论(0) 推荐(0) 编辑

导航

点击右上角即可分享
微信分享提示