摘要: 5.索引压缩 有损压缩:大小写转换,词干还原、停用词剔除、向量空间模型、LSA(隐性语义分析)等; 无损压缩:(下面介绍的压缩方法) Heaps定律:词项数目的估计---M=kT^b(M-词项数,T-文档集合中词条个数,30《k《100,b=0.5) Zipf定律:词项在文档中分布的估计---排名第i多的词项的文档集频率与1/i成正比,例如:如果出现第一多的词项出现次数是cf1,那么出 现第二多的词项出现次数就是cf1/2。用于倒排记录表压缩时的词项分布建模。 其他有关词项分布的模型:K混合模型,双泊松模型(见15)词典压缩:1.词典采用定长数组存储所有词项按照词典序排序,但这样会造成空间浪费 阅读全文
posted @ 2011-04-30 14:01 跳刀的兔子 阅读(418) 评论(0) 推荐(0) 编辑