摘要: 作为一种常用的索引组织方式,它在很多领域得到了应用。下面从存储和查询两个阶段对它进行介绍。1.存储阶段对于每个关键字,分配一个固定大小的向量(k-bit),这个向量叫做签名(Signature);对于一个网页文件,经过词典切分后,形成由对应 关键字序列构成的向量,即P=<key1,key2,…,keym>,对这些关键字的签名做OR运算,就形成了网页文件的签名。这个过程也被 称为重叠编码(Superimposed Coding),然后把网页文件的签名结果依次存入一个个独立的文件中,形成对应的签名文件,这样形成的签名文件比原文件小很多。例如:有一页网页分词后有这样一些关键字“文本”、“ 阅读全文
posted @ 2011-06-12 22:21 Kaffeeck 阅读(876) 评论(0) 推荐(0) 编辑
摘要: 这是自然语言处理领域的一个有趣的定律,其实称为规律更合适,因为这是一个经验性的结果,是通过统计数据得出来的近似的规律。它的定义有些绕口,就是说,在一个自然语言的语料库中,一个词的出现频数和这个词在这个语料中的排名(这个排名是基于出现次数的)成反比。"Zipf's law states that given somecorpus ofnatural language utterances, the frequency of any word isinversely proportional to its rank in the frequency table. "举个 阅读全文
posted @ 2011-06-12 03:38 Kaffeeck 阅读(1365) 评论(0) 推荐(0) 编辑