信息检索导论学习笔记(6)-索引压缩
摘要:
索引压缩为什么要压缩?增加内存存储内容, 增加高速缓存(caching)技术的利用率(加快速度)加快从磁盘到内存的数据传输速度 (同样加快速度)。(读压缩数据到内存+在内存中解压)比直接读入未压缩数据要快很多。(前提: 解压速度要很快)减少磁盘空间 (节省开销)词典压缩:词典压缩的主要动机: 使之能够尽量放入内存中倒排记录表压缩:倒排记录表压缩的主要动机: 减少磁盘存储空间,减少从磁盘读入内存的时间注意: 大型搜索引擎将相当比例的倒排记录表都放入内存有损(Lossy) vs 无损(Lossless)压缩有损压缩: 丢弃一些信息。前面讲到的很多常用的预处理步骤可以看成是有损压缩:统一小写,去除停 阅读全文
posted @ 2012-08-17 17:04 God bless you 阅读(3851) 评论(3) 推荐(0) 编辑