文本分类

1.新闻的特征向量

　　　TF-IDF(词频的权重度量)：TF1xIDF1 TF2xIDF2 TF3xIDF3.。。。。其中TF是词在文章中出现的频率，IDF是权重。给虚词赋予比较低的权重。

针对一篇文章，然后对词汇表的每个词给予一个TF-IDF值，这样就得到文章的特征向量，文章中没有出现的词就是0。

2.度量文章的相似性。

向量距离的衡量是看向量的夹角　　

　　由于文章长度不同，其特征向量的维度也不同。比较向量的长度没有意义。用余弦定理来计算夹角的余弦，取值范围在【0,1】。

　　文章是同一类文章的时候，就会在某几维有都较大的值，在某几个维度都有较小的值，就是说，两者在较大值的维度上有交集。

　　当夹角很小的时候，说明两个文章在用词比例上一致。（余弦值为1的，相似性最高。）

　　文章的分类：

　　自底而上的聚类：

(1 ) 对要分类的所有的文章两两求夹角的余弦值，大于阈值的聚为一类----->(2) 将小类看成整体，计算小类的特征向量，再两两比较，聚出一些稍大的类----> （3）迭代下去

　优化方案：删除虚词，只算非零值。

奇异值分解：

文章分类的实质是对文本的分类和对词汇表中字词的分类。A=XBY，其中X是词与语义类之间的相关性矩阵，Y是文章和主题的相关。B则是语义类和文章的相关性矩阵。

其中X的行是词，列是语义类，xij接近于1，说明词i和j语义类有关（属于j）.

Y 行是主题，列是文章（Yij 接近于1，文章j，和主题i有关）

B行是语义类，列是主题。其中X，Y分别表示了词的分类结果和文本分类结果

posted on 2018-11-25 14:31 as火柴人阅读(206) 评论(0) 编辑收藏举报

刷新页面返回顶部

as火柴人