数据挖掘-话题识别
简单话题识别的处理步骤:
1、tf-idf处理词的值(idf为300万篇博文的切词)。
2、切词并进行统计词频,依照tf-idf计算该词在向量中的维度值 。
3、切分标题统计词频,标题的权重是3 (统计时,标题的实际词频*3) 。
4、去掉非名词的词语,去掉一些自定义的无意义名词(像“今,今天”,“时候”等) 。
5、取前100个词,组装成向量 。
6、对向量归一化处理,目前做的是全部向量转换成单位长度 1 。
7、初始点设置,聚类,目前聚类的簇设置为10 ,质心计算采用的是各维度的和取平均值,聚类迭代结束条件(变更的点数小于1个或者迭代次数超过200次)。
8、对于每个簇进行统计:找出离簇的中心最近的20个向量(博文);提取分散度(在该簇的多少篇文章中出现过)最高的20个词。
9、对每个文档簇(博文)的评价指标:文章数、热度(评论、点击量的综合) 。