2013年9月13日

基于LDA对关注的微博用户进行聚类

摘要：转自：http://www.datalab.sinaapp.com/?p=237 最近看了LDA以及文本聚类的一些方法，写在这里算是读书笔记。文章最后进行了一个小实验，通过爬取本人在微博上关注的人的微博，利用微博的内容，尝试将我关注的人按主题进行进行聚类。文本聚类就是把一个文本集分成一定数量的簇(Cluster)，使每个簇内的文本之间具有较大的相似性，而使簇间的文本具有较大的差异性。传统的文本聚类方法一般基于向量空间模型(vector space model): 在对文本集中的每个文本进行预处理(分词、停用词过滤等)、特征选择和权重计算之后，将文档集表示成一个高纬、稀疏的文档-词矩阵，进而使阅读全文

posted @ 2013-09-13 15:55 kalor 阅读(2246) 评论(1) 推荐(0) 编辑

导航

2013年9月13日