摘要: 向量空间模型是一种比较广泛是一种用向量来表示文本的代数模型。在向量空间模型中,文档被表示成一个权值向量,其中的每一个权值都通过词频率表(TF),或者词逆向文档频率表(TF-IDF),或者他们的变异版本计算得到的。词频率表(Term Frequency(TF)Scheme):在这种方式中,文档di中token ti的权值就是在dj中ti出现的次数,被定义为fij,在此基础上还可以进行标准化。词逆向文档频率表(TF-IDF Scheme):这是最有名的权值表,这种表有很多种变异的版本,在这里给出最基本的形式在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件 阅读全文
posted @ 2011-12-14 20:05 小卡的土豆园 阅读(955) 评论(0) 推荐(0) 编辑