2013年5月3日
摘要: 考虑一下这个场景,使用网络爬虫高速爬取大量的网页内容,如果想把这些网页进行实时聚类,并从中提取每个网页聚类的主题.我们应该怎么样去做对于普通或常见的聚类算法,比如K-means,或Hierarchical聚类,无法适用于这个常见,对于这些聚类算法无法进行incremental聚类,即在聚类开始前必须知道整个数据集,而这个场景中的数据集是随着爬虫不断增多的.而且这些聚类算法的performance不够高,比如对于K-means需要不断的partition以达到比较好的聚类效果.所以向来聚类算法在我的印象中是低效的,而面对这样一个需要实时数据递增处理的场景,我们需要一种one-shot的高效算法, 阅读全文
posted @ 2013-05-03 15:13 ahujack 阅读(410) 评论(0) 推荐(0) 编辑