摘要: 其基本思想是使用训练集为每个类构造一个原型向量,构造方法如下:给定一个类,训练集中所有属于这个类的文档对应向量的分量用正数表示,所有不属于这个类的文档对应向量的分量用负数表示,然后把所有的向量加起来,得到的和向量就是这个类的原型向量,定义两个向量的相似度为这两个向量夹角的余弦,逐一计算训练集中所有文档和原型向量的相似度,然后按一定的算法从中挑选某个相似度作为界。给定一篇文档,如果这篇文档与原型向量的相似度比界大,则这篇文档属于这个类,否则这篇文档就不属于这个类。Rocchio算法的突出优点是容易实现,计算(训练和分类)特别简单,它通常用来实现衡量分类系统性能的基准系统,而实用的分类系统很少采用 阅读全文
posted @ 2011-05-24 15:24 loveyakamoz 阅读(1154) 评论(0) 推荐(0) 编辑