2012年8月15日

信息检索导论学习笔记(4)

摘要: 索引构建 回顾倒排索引的构建,首先,我们扫描一遍文档集合得到所有的词项—文档 ID 对。然后,我们以词项为主键、文档 ID 为次键进行排序。最后,将每个词项的文档 ID组织成倒排记录表, 并计算诸如词项频率或者文档频率的统计量。对于小规模文档集来说,上述过程均可在内存中完成。对于大规模文档集,由于内存不足,我们必须使用基于磁盘的外部排序算法(external sorting algorithm... 阅读全文

posted @ 2012-08-15 16:30 God bless you 阅读(4114) 评论(0) 推荐(1) 编辑

导航