as火柴人

导航

文本分类

1.新闻的特征向量

   TF-IDF(词频的权重度量):TF1xIDF1   TF2xIDF2    TF3xIDF3.。。。。其中TF是词在文章中出现的频率,IDF是权重。给虚词赋予比较低的权重。

           针对一篇文章,然后对词汇表的每个词给予一个TF-IDF值,这样就得到文章的特征向量,文章中没有出现 的词就是0。

2.度量文章的相似性。

       向量距离的衡量是看向量 的夹角  

  由于文章长度不同,其特征向量的维度也不同。比较向量的长度没有意义。用余弦定理来计算夹角的余弦,取值范围在【0,1】。

  文章是同一类文章的时候, 就会在某几维有都较大的值,在某几个维度都有较小的值,就是说,两者在较大值的维度上有交集。

  当夹角很小的时候,说明两个文章在用词比例上一致。(余弦值为1的,相似性最高。)

  文章的分类:

  自底而上的聚类:

   (1 ) 对要分类的所有的文章两两求夹角的余弦值,大于阈值的聚为一类----->(2) 将小类看成整体,计算小类的特征向量,再两两比较,聚出一些稍大的类----> (3)迭代下去

 优化方案:删除虚词,只算非零值。

     奇异值分解:

 文章分类的实质是对文本的分类和对词汇表中字词的分类。A=XBY,其中X是词与语义类之间的相关性矩阵,Y是文章和主题的相关。B则是语义类和文章的相关性矩阵。

其中X的行是词,列是语义类,xij接近于1,说明词i和j语义类有关(属于j).

Y 行是主题,列是文章(Yij 接近于1, 文章j,和主题i有关)

B行是语义类,列是主题。其中X,Y分别表示了词的分类结果和文本分类结果

posted on 2018-11-25 14:31  as火柴人  阅读(206)  评论(0编辑  收藏  举报